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为 什么 要 写 这 本 书 

不 知 从 何 时 开始 我 们 已 周身 没入 大 数据 时 代 的 潮流 ， 不 知 不 觉 被 卷 人 了 大 数据 时 代 。 

无 论 是 每 天 上 网 看 网 页 、 聊 QQ 、 聊 微 信 ， 或 者 登录 银行 、 网 购 、 买 票 ， 或 者 出 行 、 投 
宿 ， 甚 至 是 出 人 任何 公众 场合 、 驾 车 、 用 水 用 电 ……' 我 们 无 时 无 刻 不 在 生产 着 各 种 数据 。 而 
同时 我 们 也 在 消费 着 其 他 人 生产 的 数据 ， 我 们 使 用 的 众多 家 电 产 品 ， 每 一 个 设计 细节 都 融 人 
了 设计 者 对 用 户 体验 数据 的 调查 与 分 析 ; 我 们 使 用 的 每 一 部 手机 、 每 一 台电 脑 ， 每 一 个 部 件 
的 产 出 都 融入 着 多 得 无 法 想象 的 指标 数据 控制 下 的 生产 与 监控 ; 我 们 访问 的 每 一 个 网 页 、 每 
一 个 软件 ， 每 一 次 享受 到 的 贴心 的 产品 改动 和 服务 的 升级 ， 无 不 浸透 着 无 数 的 数据 汇集 与 精 
细 的 分 析 和 反馈 。 这 是 一 场 慢 慢 到 来 的 、 贯 穿 所 有 产业 的 革命 ， 这 是 一 次 润 物 细 无 声 的 各 行 
业 精耕细作 的 开端 。 

不 管 我 们 是 不 是 愿意 ， 不 管 我 们 有 没有 意识 到 ， 我 们 现在 已 经 身 处 大 数据 时 代 的 奇 点 ， 
而 未 来 要 迎接 的 是 大 数据 奇 点 爆炸 给 我 们 带 来 的 冲击 力 。 我 们 需要 力量 来 各 了 驭 浪 里 的 航船 ， 
我 们 需要 乘风破浪 前 进 的 动力 。 

在 这 一 次 远航 中 ， 我 们 不 必 担 心 自己 的 能 力 水 平 无 法 感知 数据 这 种 磅 大 之 力 的 气魄 ， 不 
必 担 心 星 涩 难 懂 的 公式 定理 会 让 我 们 感到 阻力 。 

请 相信 我 ， 这 是 一 本 通俗 易 懂 的 大 数据 图 书 ， 这 是 一 本 轻松 愉悦 的 数据 挖掘 和 机 器 学 习 
的 读本 ， 这 是 一 本 没有 门槛 的 机 器 学 习 实 战 手册 。 让 我 们 一 起 扬帆 远航 吧 ! 


本 书 特色 


从 行为 脉络 来 看 ， 本 书 基 本 上 是 从 数据 统计 、 数 据 指标 理解 、 数 据 模 型 、 聚 类 / 分 类 与 机 
器 学 习 、 数 据 应 用 、 大 数据 框架 补充 知识 ， 以 及 扩展 讨论 这 样 的 角度 来 层 层 深入 完成 的 。 
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这 种 方式 会 给 读者 比较 好 的 带 入 感 ， 让 大 家 一 一 尤其 是 不 擅长 数学 的 读者 降低 对 大 数据 
与 机 器 学 习 算法 的 恐惧 感 。 如 果 读 者 朋友 对 排列 组 合 、 统 计 分 布 这 些 基 础 知识 比较 了 解 ， 完 
全 可 以 考虑 跳 过 这 些 部 分 直接 去 读 后 面 更 感 兴趣 的 内 容 。 

为 了 调节 阅读 气氛 ， 我 们 还 尝试 加 入 了 一 些 漫 画 插图 。 为 了 让 读者 朋友 能 够 更 快 地 进行 
实践 ， 我 们 几乎 在 每 一 个 算法 讲解 后 都 配 有 Python 或 者 SQL 语言 的 实现 部 分 。 相 信 这 些 能 够 
帮助 大 家 更 快 、 更 轻松 地 阅读 本 书 


读者 对 象 


CL) 对 大 数据 感 兴趣 但 是 完全 不 了 解 的 技术 人 员 。 
(2 ) 对 机 器 学 习 和 数据 控 气 比较 感 兴趣 的 技术 人 员 。 
(3 ) 大 数据 初级 从 业 人 员 。 


如 何 阅读 本 书 


本 书 一 共 分 为 18 章 。 

第 1 章 一 第 5 章 为 人 门 所 需 基 础 知识 及 对 数据 指标 运营 的 阐述 。 

第 6 章 一 第 10 章 是 对 数据 挖掘 基础 知识 与 算法 的 介绍 。 

第 11 章 一 第 18 章 为 生产 应 用 与 高 级 扩展 。 

其 中 ,第 1 章 一 第 15 章 正文 内 容 ， 以 及 第 17 章 、 第 18 章 的 正文 内 容 由 高 扬 编 写 。 
全 书 所 有 的 Python 代码 由 卫 峥 编写 与 补充 整理 。 

第 16 章 、 附 录 全 部 由 尹 会 生 编 写 。 

全 书 所 有 的 漫画 插画 由 万 娟 创作 完成 。 


勘误 和 支持 


确 的 地 方 ， 最 请 读者 批评 指正 。 Mobi 欢迎 扫描 下 
方 的 二 维 码 ， 关 注 “ 奇 点 大 数据 ” 微 信 公 众 号 和 我 们 进行 互动 讨论 。 关 
注 大 数据 尖端 技术 发 展 ， 关 注 “ 奇 点 大 数据 ”。 

同时 ， 你 也 可 以 通过 邮箱 77232517@qq.com 联系 到 我 ， 期 待 能 够 得 
到 你 的 真挚 反馈 ， 在 技术 之 路 上 互 勉 共 进 。 
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第 1 章 Cres 7 


大 数据 产业 


1.1 大 数据 产业 现状 


大 数据 是 近 几 年 来 都 一 直 非 常 火 热 的 一 个 名 词 ， 似 乎 是 伴随 着 “互联 网 ”的 逐渐 发 展 
所 出 现 的 一 个 新 名 词 。 我 们 在 天 天 听 着 “互联 网 +” 的 同时 也 在 听 说 “大 数据 +”。 

大 数据 其 实 是 一 个 比较 抽象 和 笼统 的 概念 ， 应 该 说 这 个 词 是 为 了 涵盖 性 地 表达 一 系列 
生产 和 业务 行为 的 一 个 统称 。 但 是 也 正 是 由 于 这 种 抽象 和 过 于 简略 的 称谓 方式 ， 让 每 个 人 
都 容易 对 这 个 词 产生 见仁见智 的 不 同 视角 的 印象 或 者 看 法 。 

大 数据 是 一 个 以 数据 为 核心 的 产业 ， 是 一 个 围绕 大 数据 生命 周期 不 断 循环 往复 的 生产 
过 程 ， 同 时 也 是 由 多 种 行业 分 工 和 协同 配合 而 产生 的 一 个 复合 性 极 高 的 行业 。 

在 我 看 来 ， 大 数据 产业 生产 流程 从 数据 的 生命 周期 的 传导 和 演变 上 可 以 分 为 这 样 几 个 
部 分 : 数据 收集 、 数 据 存 储 、 数 据 建 模 、 数 据 分 析 、 数 据 变现 。 

其 中 每 个 环节 都 是 非常 重要 的 数据 生命 环节 ， 每 个 环节 的 生产 加 工行 为 都 是 有 其 价值 
的 ， 并且 每 个 环节 做 到 极致 都 可 以 成 就 一 个 伟大 的 公司 。 整 个 完整 的 产业 生态 圈 就 是 大 数 
据 ， 它 的 缩影 也 渗透 在 任何 一 家 以 数据 作为 运营 基础 的 公司 中 。 

根据 麦肯锡 2011 年 发 布 的 一 份 研究 报告 ， 到 2018 年 世界 范围 内 将 会 出 现 高 达 
1471 — 19 万 的 “大 数据 ”岗位 空缺 。 而 艾 瑞 咨询 集团 在 “2014 年 会 ”上 曾 指出 ， 全 球 数 
据 量 每 18 个 月 翻 一 番 ， 到 2015 年 ， 中 国 专用 数据 分 析 人 员 预 计 缺 口 1 400 万 。 

可 以 看 到 ,在 仅仅 三 四 年 的 时 间 间 隔 上 ， 两 家 咨询 公司 做 出 的 预测 都 很 大 胆 ， 但 是 两 
个 佑 算数 字 相 差 也 确实 非常 悬殊 。 究 竟 哪 个 数字 更 贴近 “事实 ”并 不 好 判断 ， 因 为 大 家 对 
“大 数据 ”的 概念 边界 理解 可 能 有 很 大 的 偏差 ， 估 算出 现 偏差 是 必然 的 ， 但 是 有 一 点 可 以 肯 
定 ， 大 数据 人 才 和 缺口 一 定 是 未 来 几 年 非常 显著 的 问题 。 
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2015 年 12 月 21 日 ， 全 球 第 一 家 大 数据 交易 所 一 一 贵阳 大 数据 交易 所 经 过 半年 多 的 发 
展 ， 交 易 金 额 已 突破 6 000 万 元 人 民 币 ， 会 员 数量 超过 300 家 ， 接 人 贵阳 大 数据 交易 所 的 数 
据 源 公司 超过 100 家 ， 数 据 总 量 超过 10 PB， 已 发 生 实际 交易 的 会 员 超 过 70 家 。 预 计 在 未 
来 3 一 5 年 ,交易 所 日 交易 额 将 突破 100 亿 元 2 。 

截至 目前 ， 中 国境 内 除了 贵阳 大 数据 交易 所 以 外 ， 还 有 长 江 大 数据 交易 所 、 武 汉 东湖 
大 数据 交易 中 心 、 崇 州 大 数据 交易 所 等 十 余 家 大 数据 交易 所 挂牌 营业 。 

20164E 1 月 ， 阿 里 云 的 “ 数 加 ”大 数据 平台 和 金山 云 的 KMR 平台 等 国内 大 品牌 云 产 
品 供应 商 的 重 磅 产品 先后 登场 ， 几 乎 所 有 有 远见 的 云 产 品 巨 璧 资本 都 在 向 大 数据 产业 链 集 
中 。 但 是 这 块 蛋糕 似乎 有 点 太 大 了 ， 只 能 边 烘 焙 边 分 割 ， 谁 也 没 办 法 一 下 子 全 吃 掉 。 


1.3. ”对 大 数据 产业 的 理解 


“大 数据 ”这 个 人 造 词汇 其 实 很 容易 产生 不 少 误解 ， 尤 其 是 这 个 “大 ” 字 ， 很 容易 让 人 
gb. Kebab. MER, aU. URINE, dieu v 
数据 ”给 人 带 来 的 误导 。 大 数据 产业 的 存在 其 实 和 其 他 产业 并 无 二 致 ， 本 身 是 为 了 给 其 他 
产业 提供 服务 。 

做 个 假设 ， 假 如 现在 给 石油 产业 冠 以 六 石油 产业 的 名 字 ， 那 么 会 影响 石油 行业 本 
身 对 其 他 行业 的 服务 样 态 吗 ? 应 该 不 会 。 

在 “大 石油 ”产业 里 ， 同 样 有 人 从 事 着 这 样 的 工作 内 容 : 石油 勘探 、 石 油 开采 、 石 油 
运输 、 石 油 提炼 、 石 油 产品 销售 等 多 个 细 分 领域 和 环节 。 

最 后 提供 给 社会 的 是 由 大 量 人 工 和 智慧 凝结 在 石油 产品 上 的 服务 ， 而 这 些 服 务 极 大 地 
方便 并 满足 了 社会 各 领域 对 于 工业 能 源 、 建 筑 材料 、 食 品 包装 、 服 装 面料 、 模 型 器 具 、 日 
杂 用 品 等 多 种 制造 与 使 用 的 需求 。 试 想 如 果 没 有 石油 ， 也 就 没有 廉价 汽车 与 航空 动力 ， 尤 
其 是 没有 乙烯 等 重要 化 工 原材料 的 来 源 ， 是 否 存在 塑料 这 样 一 种 廉价 的 工业 制造 材料 都 很 
难说 ， 那 么 各 个 产业 则 需要 用 其 他 造价 更 为 高 昂 的 材料 对 其 进行 取代 ， 更 不 用 提 家 用 的 天 
然 气 和 液化 石油 气 了 ， 人 们 只 能 再 去 寻找 其 他 能 源 : 要 么 不 洁净 一 一 如 柴火 和 煤炭 ， 要 么 
价格 昂贵 一 一 如 氢气。 人们 之 所 以 选用 石油 作为 整个 产业 链 的 根源 ， 并 把 它 发 展 成 一 个 完 
整 的 产业 也 是 由 于 这 样 的 原因 ， 大 概 这 个 逻辑 是 比较 容易 理解 的 。 

类 比 一 下 “大 数据 ”产业 ， 数 据 收集 、 数 据 传 输 、 数 据 存储 、 数 据 建 模 、 数 据 分 析 、 
数据 交易 贯穿 了 大 数据 产业 的 完整 产业 链 。 在 这 个 产业 链 里 同样 蕴含 着 和 “大 石油 ”一 样 
的 东西 ， 这 个 东西 是 什么 ? 

数据 通过 各 种 软件 进行 收集 ， 通 过 网 络 进行 传输 ， 通 过 云 数 据 中 心 进行 存储 ， 通 过 数 
据 科学 家 或 者 行业 专家 进行 建 模 和 加 工 ， 最 后 数据 分 析 得 到 的 是 一 种 知识 ， 是 一 种 人 们 通 


O 来 自 《 新 华 网 》 的 报道 。 
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过 数据 洞悉 世界 的 能 力 。 数 据 之 间 本 来 彼此 错综复杂 的 潜在 关系 会 使 得 大 量 孤 立 而 多 来 源 
的 数据 同时 出 现在 一 个 和 舞台 后 显得 更 为 有 趣 ， 大 量 看 似 不 相关 的 事情 却 能 够 通过 观察 与 分 
析 后 告诉 人 们 更 多 背后 的 因果 。 这 些 因果 联系 的 意义 会 让 人 们 在 各 个 方面 能 够 推测 未 来 趋 
势 ， 减 少 试 错 的 机 会 ， 减 少 成 本 ， 降 低 风 险 ， 解 放 劳动 力 。 笔 者 认为 这 才 是 大 数据 产业 本 
身 的 价值 与 意义 所 在 。 


1.3 大 数据 人 才 


1.3.1 供需 失衡 

大 数据 产业 既然 如 此 炙手可热， 那么 大 数据 人 才 的 待遇 如 何 呢 ? 这 一 点 其 实 不 用 多 说 ， 
只 要 大 家 时 常 关 注 一 些 猎 头 QQ 群 的 状态 ,或 者 猎头 朋友 的 签名 档 内 容 ， 再 或 者 干脆 到 “ 猎 
聘 网 "、“ 前 程 无 忧 ”等 专业 的 人 才 中 介 网 站 去 看 看 就 会 了 然 于 胸 一 一 30 万 年 薪 找 不 到 人 ， 
40 万 年 薪 找 不 到 人 ，50 万 、60 万 还 是 找 不 到 人 ， 一 时 间 可 谓 洛阳 纸 贵 ， 似 乎 市 场 上 的 大 数 
据 人 才 是 “一 将 难 求 ” 。 这 也 从 一 个 侧面 说 明 ， 很 多 公司 愿意 花 这 么 多 薪水 雇佣 一 位 大 数据 
ACT. 不 管 他 的 头衔 是 大 数据 科学 家 ， 还 是 大 数据 架构 师 ， 抑 或 是 大 数据 产品 经 理 ， 很 显 
然 这 些 公司 都 是 把 大 数据 产业 发 展 作为 自己 的 经 营 战略 的 重要 组 成 部 分 来 看 待 。 

大 数据 人 才 的 一 将 难 求 其 实 不 奇怪 ， 因 为 人 才 既 然 是 市 场 的 一 部 分 ， 是 一 种 特殊 的 “ 商 
品 ”"， 那 就 必然 受到 市 场 因 素 的 调节 ， 供 需 严 重 失衡 才 会 有 这 样 的 现象 。 但 是 ， 为 什么 大 数 
据 人 才 会 供需 严重 失衡 呢 ? 原因 有 以 下 两 个 。 

C1) 大 数据 产业 发 展 迅速 ， 很 多 公司 都 越 来 越 意 识 到 要 将 大 数据 作为 自己 公司 经 营 
战略 不 可 或 缺 的 一 部 分 ， 就 像 销售 、 生 产 、 公 关 这 样 的 重要 环节 一 样 缺 一 不 可 。 人 才 需 求 
旺盛 ! 

(2) 大 数据 人 才 培 养 成 本 居 高 不 下 ， 培 养 周期 长 ， 成 材 率 相对 较 低 ， 这 也 是 导致 大 数 
据 人 才 缺 乏 的 一 个 非常 重要 的 原因 。 人 才 供 应 不 足 ! 


1.3.2 人才 方 向 

从 目前 市 场 上 的 人 才 需 求 观 点 来 看 ， 大 数据 人 才 大 致 可 以 分 为 以 下 3 个 方向 。 

C1) 偏重 基建 与 架构 的 “大 数据 架构 ”方向 。 

(2 ) 偏重 建 模 与 分 析 的 “大 数据 分 析 ” 方 向 。 

(3) 偏重 应 用 实现 的 “大 数据 开发 ”方向 。 

当然 ， 也 有 理想 主义 者 会 认为 能 来 个 三 合 一 的 人 才 就 更 好 了 ,但 是 知识 宽度 和 知识 深 
度 本 身 就 是 一 组 矛盾 ， 毕 竟 对 于 有 限 的 学 习 时 间 和 精力 ， 能 够 在 一 方面 做 到 运用 自如 已 属 
不 易 。 
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1. 大 数据 架构 方向 

大 数据 架构 方向 的 人 才 更 多 注重 的 是 Hadoop, Spark, Storm 等 大 数据 框架 的 实现 原理 、 
部 署 、 调 优 和 稳定 性 问题 ， 以 及 它们 与 Flume 、Kafka 等 数据 流 工具 以 及 可 视 化 工具 的 结合 
技巧 ， 再 有 就 是 一 些 工具 的 商业 应 用 问题 ， 如 Hive、Cassandra、HBase、PrestoDB 等 。 能 
够 将 这 些 概念 理解 清楚 ， 并 能 够 用 辩证 的 技术 观点 进行 组 合 使 用 ， 达 到 软 /硬件 资源 利用 的 
最 大 化 ， 服 务 提供 的 稳定 化 ， 这 是 大 数据 架构 人 才 的 目标 。 

以 下 是 大 数据 架构 方向 研究 的 主要 方面 。 

(1) 架构 理论 : 关键 词 有 高 并 发 、 高 可 用 、 并 行 计算 、MapReduce、Spark 等 。 

(2) 数据 流 应 用 : 关键 词 有 Flume、Fluentd、Kafka、ZMQ 等 。 

(3) 存储 应 用 : 关键 词 有 HDFS、Ceph 等 。 

(4) 软件 应 用 : 关键 词 有 Hive, HBase, Cassandra, PrestoDB 等 。 

(5) 可 视 化 应 用 ， 关 键 词 有 HightCharts, ECharts, D3, HTML5, CSS3 等 。 

大 数据 架构 师 除 了 最 后 可 视 化 的 部 分 不 需要 太 过 注意 (但 是 要 做 基本 的 原理 了 解 ) 以 
外 ， 其 他 的 架构 理论 层面 、 数 据 流 层面 、 存 储 层面 、 软 件 应 用 层面 等 都 需要 做 比较 深入 的 
理解 和 落地 应 用 。 尤 其 是 需要 至 少 由 每 一 个 层面 中 挑选 一 个 可 以 完全 纯熟 应 用 的 产品 ， 然 
后 组 合成 一 个 完整 的 应 用 场景 ， 在 访问 强度 、 实 现成 本 、 功 能 应 用 层面 都 能 满足 需求 ， 这 
是 一 个 合格 的 大 数据 架构 师 必须 完成 的 最 低 限 要 求 。 


2. 大 数据 分 析 方 向 

大 数据 分 析 方 向 的 人 才 更 多 注重 的 是 数据 指标 的 建立 ， 数 据 的 统计 ， 数 据 之 间 的 联系 ， 
数据 的 深度 挖掘 和 机 器 学 习 ， 并 利用 探索 性 数据 分 析 的 方式 得 到 更 多 的 规律 、 知 识 ， 或 者 
对 未 来 事物 预测 和 预 判 的 手段 。 

以 下 是 大 数据 分 析 方 向 研究 的 主要 方面 。 

C1) 数据 库 应 用 : 关键 词 有 RDBMS、NoSQL、MySQL、Hive、Cassandra 等 。 

(2) 数据 加 工 : 关键 词 有 ETL、Python 等 。 

(3) 数据 统计 : 关键 词 有 统计 、 概 率 等 。 

(4) 数据 分 析 : 关键 词 有 数据 建 模 、 数 据 挖掘 、 机 器 学 习 、 回 归 分 析 、 聚 类 、 分 类 、 
协同 过 滤 等 。 

此 外 还 有 一 个 方面 是 业务 知识 。 

其 中 ， 数 据 库 应 用 、 数 据 加 工 是 通用 的 技术 技巧 或 者 工具 性 的 能 力 ， 主 要 是 为 了 帮助 
分 析 师 调用 或 提取 自己 需要 的 数据 ， 毕 竟 这 些 技巧 的 学 习 成 本 相对 较 低 ， 而 且 在 工作 场景 
中 不 可 或 缺 ， 而 每 次 都 求人 去 取 数 据 很 可 能 会 消耗 过 多 的 时 间 成 本 。 

数据 统计 、 数 据 分 析 是 分 析 师 的 重头 戏 ， 一般 来 说 这 两 个 部 分 是 分 析 师 的 主 业 ， 要 有 
比较 好 的 数学 素养 或 者 思维 方式 ， 而 且 一 般 来 说 数学 专业 出 身 的 人 会 有 相当 的 优势 。 最 后 
的 业务 知识 方面 就 是 千姿百态 了 ， 毕 竟 每 家 行业 甚至 每 家 公司 的 业务 形态 都 是 千差万别 的 ， 
只 有 对 这 些 业 务 形态 和 业务 流程 有 了 充分 的 理解 才能 对 数据 分 析 做 到 融会 贯通 ， 才 有 可 能 
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正确 地 建立 模型 和 解读 数据 。 

3. 大 数据 开发 方向 

大 数据 开发 方向 的 人 才 更 多 注重 的 是 服务 器 端 开发 ， 数 据 库 开发 ， 呈 现 与 可 视 化 ， 人 
机 交互 等 衔接 数据 载体 和 数据 加 工 各 个 单元 以 及 用 户 的 功能 落地 与 实现 。 

以 下 是 大 数据 开发 研究 的 主要 方面 。 

CI) 数据 库 开发 : 关键 词 有 RDBMS、NoSQL、MySQL、Hive 等 。 

(2) 数据 流 工具 开发 : 关键 词 有 Flume、Heka、Fluentd、Kafka、ZMQ 等 。 

(3) 数据 前 端 开发 : 关键 词 有 HightCharts、ECharts、 JavaScript、D3、HTML5、CSS3 等 。 

(4) 数据 获取 开发 : 关键 词 有 疏 虫 、 分 词 、 自 然 语 言 学 习 、 文 本 分 类 等 。 

可 以 注意 到 ， edic Mi Mie & 构 方向 有 很 多 关键 词 虽然 是 重合 的 ， 但 是 措 
BER—ERE, AE "BR, 一 “开发 "。 区 别 在 于 ,“ 应 用 ”更 多 的 是 懂得 这 些 这 种 技 
BECAS. es end et eg tet ne 
是 熟练 掌握 ,快速 实现 。 

最 后 一 个 方面 一 一 数据 获取 开发 与 前 面 的 数据 库 开 发 、 数 据 流 工具 开发 、 数 据 前 端 开 
发 上 咯 有 不 同 ， 它 出 现 的 时 间 相对 较 晚 ， 应 用 面相 对 较 罕 。 现 在 很 多 数据 公司 ， 如 汤 森 路 透 、 
彭 博 等 咨询 公司 的 数据 除了 从 专业 行业 公司 直接 得 到 以 外 ,很 多 也 是 从 互联 网 上 候 取 的 ， 
这 个 过 程 中 也 涉及 一 些 关 键 技 术 。 


























1.3.3 ”环节 和 工具 
前 面 提 到 过 ， 大 数据 从 数据 的 生命 周期 的 传导 和 演变 上 可 以 分 为 这 样 几 个 部 分 : 数据 
收集 ， 数 据 存储 ， 数 据 建 模 ， 数 据 分 析 ， 数 据 变现 ， 如 图 1-1 所 示 。 


[所 收集 )up (arietes) ob [cent ] 哆 [数据 分 析 up [seien ) 


图 1-1 数据 生命 周期 中 的 环节 





1. 数据 收集 
完成 数据 收集 是 做 大 数据 的 第 一 步 ， 这 里 请 注意 ， 数 据 的 收集 和 平时 在 业务 生产 库 上 
的 做 法 不 太一 样 ， 而 是 更 像 以 前 数据 仓库 里 的 收集 方式 。 
方法 一 : 快照 法 。 可 以 每 天 、 每 周 、 每 月 用 数据 快照 的 方式 把 当前 这 一 瞬间 的 某 数据 
的 状态 复制 下 来 放 人 相应 的 位 置 一 一 这 个 位 置 就 是 大 数据 的 数据 中 心 所 采用 的 数据 容器 ， 
可 以 用 Hive 实现 ， 也 可 以 用 Oracle 或 者 其 他 专业 的 数据 仓库 软件 实现 。 
方法 二 : 可 以 使 用 一 些 工 具 来 进行 流 式 的 数据 导 和 人 ， 如 TCP 流 或 者 HTTP 长 / 短 链接 。 
2. 数据 存储 
数据 存储 的 方式 也 是 比较 多 样 的 ， 当 数据 收集 进入 数据 中 心 时 ， 可 以 考虑 使 用 HDFS 
或 者 Ceph 等 开源 并 且 低 成 本 的 方案 ， 数 据 量 较 小 的 时 候 可 以 采用 NAS 直接 mount 到 一 台 
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Linux 服务 器 的 某 挂 载 点 。 比 较 推 荐 HDFS 和 Ceph 主要 是 因为 这 两 种 框架 在 业界 已 经 有 了 
长 时 间 的 应 用 ， 社 区 活跃 ， 方 案 成 熟 稳 定 ， 部 署 价 格 低廉 且 扩 展 性 极 好 。 

3. 数据 建 模 

数据 建 模 是 一 个 人 为 因素 影响 比较 大 的 环节 ， 我 们 这 里 提 到 的 数据 建 模 是 指数 理 关 系 
的 梳理 ， 并 根据 数据 建立 一 定 的 数据 计算 方法 和 数据 指标 。 一 般 来 说 ， 在 一 个 比较 成 熟 的 
行业 里 ， 数 据 指标 相对 是 比较 固定 的 ， 只 要 对 业务 有 足够 的 了 解 是 比较 容易 建立 起 运营 数 
据 模 型 的 。 使 用 人 们 熟悉 的 SQL 语言 就 可 以 对 存储 容器 中 的 数据 进行 筛选 和 洗涤 ， 如 果 数 
据 存 储 的 容器 是 其 他 的 异 构 容器 ， 如 HBase 或 者 Mongodb 等 ， 就 只 能 使 用 它们 自己 的 操作 
Shell 去 操作 了 

在 这 里 需要 提 一 句 ， 有 一 个 比较 重要 的 环节 是 数据 清洗 。 不 同 的 业务 习惯 下 ， 清 洗 有 
着 不 同 的 解释 ， 但 核心 思想 都 是 让 数据 中 那些 由 于 误 传 、 漏 传 、 番 传 等 原因 产生 的 数据 失 
真 部 分 被 握 弃 在 计算 之 外 。 此 外 ， 原 始 数据 从 非 格式 化 变 成 格式 化 需要 一 个 “整形 ”的 过 
程 ， 目 的 是 让 它 能 够 和 其 他 数据 进行 参照 来 运算 ， 清 洗 同样 涵盖 这 个 “整形 ”的 过 程 。 也 
有 人 习惯 把 这 个 环节 直接 放 在 数据 收集 的 部 分 一 次 性 完成 ， 究 况 哪 种 方式 比较 好 不 能 一 概 
而 论 : 在 数据 收集 的 时 候 就 直接 “整形 ”完毕 ， 可 能 会 使 后 面 的 数据 存储 、 建 模 等 环节 处 
理 起 来 成 本 更 低 一 些 ， 这 是 它 的 好 处 ; 但 是 在 这 个 过 程 中 会 发 生 一 部 分 数据 裁剪 的 动作 ， 
而 裁减 掉 的 数据 所 蕴含 的 信息 以 后 再 想 找 回 是 不 可 能 的 。 剖 优 就 劣 还 是 因地制宜 地 进行 讨 
论 比 较 好 。 

4. 数据 分 析 

数据 分 析 是 这 些 环节 里 面 一 个 比较 重要 的 环节 。“ 分 析 ” 两 个 字 的 含义 可 以 包含 两 个 方 
面 的 内 容 : 一 个 是 在 数据 之 间 尝 试 寻求 因果 关系 或 影响 的 逻辑 另 一 个 是 对 数据 的 呈现 做 
适当 的 解读 。 

这 两 个 方面 或 许 有 重合 的 部 分 ,但 是 笔者 认为 这 两 个 方面 还 是 可 以 分 开 来 理解 的 ， 前 
者 偏重 数据 挖掘 、 试 错 与 反复 比 对 ; 后 者 偏重 业务 结合 、 行 业 情 景 带 入 等 。 但 是 两 者 都 是 
货真价实 的 分 析 工 作 ， 这 点 点 无 疑问 。 数 据 分 析 的 工具 在 “市 面 ” 上 有 不 少 ， 有 开源 的 ， 
也 有 收费 的 ， 到 现在 其 实 没 有 特别 好 用 的 ， 大 多 使 用 的 时 候 门 槛 较 高 而 且 使 用 习惯 十 分 西 
方 化 。 目 前 收费 的 软件 里 比较 好 的 有 IBM 的 SPSS, SAP 的 BW/BO， 以 及 微软 的 SSAS 和 
SSRS ; 开源 的 软件 里 有 Mahout, Spark ML Lib, Python Pandas 等 。 收 费 软件 里 通常 会 把 
控 气 分析 和 可 视 化 结合 得 比较 好 ， 而 开源 软件 里 主要 是 封装 的 算法 比较 多 ， 但 是 环节 较为 
孤立 ， 绘 图 的 丰富 程度 和 美观 程度 会 大 打折 扣 或 者 干脆 没有 ， 那 么 这 个 环节 就 需要 使 用 者 
自己 想 办 法 了 。 


1.3.4 ”门槛 障碍 
大 数据 开发 不 是 一 个 由 大 数据 带 来 的 新 方向 ， 它 更 多 是 迁移 性 地 使 用 旧 有 技术 ， 技 术 
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突破 也 比较 有 限 ， 所 以 这 里 不 做 过 多 的 介绍 。 

1. 大 数据 架构 方向 

对 于 大 数据 架构 方向 ， 在 资料 方面 虽然 近 两 年 涌现 出 很 多 翻译 资料 ， 也 有 很 多 国内 高 
手写 出 不 少 实战 心得 ， 但 是 对 于 层出不穷 的 优秀 开源 框架 来 说 ， 资 料 的 更 新 多 少 显 得 有 些 
跟 不 上 脚步 。 这 大 概 是 自学 成 才 的 大 数据 架构 师 们 很 多 不 得 不 一 边 翻 看 着 英文 文档 ， 一 边 
翻 看 着 源 代 码 ， 一 边 试 来 试 去 的 原因 。 而 同时 ， 越 来 越 多 的 架构 师 们 也 将 自己 的 心得 写成 
越 来 越 多 的 参考 书籍 ， 这 些 书 籍 的 丰富 也 使 大 数据 架构 领域 奋战 的 同行 们 有 了 更 多 的 参考 ， 
有 了 更 快 进 步 的 动力 

2. 大 数据 分 析 方 向 

对 于 大 数据 分 析 方 向 ， 在 淘宝 或 者 京东 上 试 着 翻 看 一 下 ， 其 实 书籍 比 前 者 要 人 缺乏 得 多 。 
虽然 有 一 些 不 错 的 数据 挖 据 与 机 器 学 习 的 书 ， 也 有 一 些 关 于 Mahout, Spark ML Lib 和 文本 
挖掘 、 神 经 网 络 的 书 被 控 上 货架 ,但 是 笔者 也 经 和 常 听 一 些 同行 抱 候 这 类 书 有 不 少 问题 不 尽 
如 人 意 。 英 译 中 版 本 的 书 有 不 少 翻译 生 涩 、 阅 读 困难 ， 而 且 解 析 不 够 细致 ， 默 认 读 者 已 经 
掌握 了 大 量 的 数理 统计 或 概率 学 的 知识 ; 而 Mahout 之 类 开源 数据 挖掘 项 目的 书籍 ， 要 么 就 
是 由 官方 文档 翻译 而 来 新 意 全 无 ， 要 么 就 是 由 于 成 书 较 慢 早已 落后 于 当前 的 最 新 版 本 ， 所 
以 让 人 读 起 来 如 唤 鸡 肋 


3. 市 场 参与 

在 我 看 来 ， 大 数据 行业 目前 不 够 繁荣 的 原因 众多 ， 但 是 究 其 根本 就 是 因为 它 目前 还 不 
是 一 门 “ 生 意 "”， 上 距离 大 量 自由 交易 有 价值 的 数据 这 一 目标 还 相差 太 远 。 这 种 交易 既 存在 于 
公司 和 组 织 之 间 ， 也 存在 于 公司 内 部 。 现 在 去 看 身边 最 繁荣 的 市 场 ， 如 大 超市 、 大 型 网 店 ， 
它们 火爆 的 原因 关键 在 于 流量 大 、 交 易 自由 、 交 易 成 本 低 、 交 易 参 与 方 众多 。 大 数据 行 
业 想 要 真正 实现 良性 和 快速 发 展 ， 关 键 在 于 提高 行业 的 市 场 化 普及 度 。 换 句 话 说 ， 大 数据 
市 场 供需 越 丰 富 市 场 就 越 繁荣 。 而 市 场 供需 的 繁荣 靠 的 是 参与 方 的 丰富 ， 以 及 交易 内 容 的 
Eo 

那么 支持 参与 方 的 不 断 丰 富 和 交易 内 容 不 断 丰 富 的 源 动 力 是 什么 呢 ? 当然 是 人 们 经 常 
说 的 去 中 心 化 和 降低 参与 门槛 。 说 到 底 ， 让 尽 可 能 多 的 人 成 为 大 数据 行业 中 的 价值 制造 者 ， 
这 可 能 才 是 大 数据 行业 进步 的 关键 点 所 在 。 大 数据 产业 中 最 有 价值 的 层面 在 哪里 ”应 该 说 ， 
在 数据 收集 、 数 据 存储 、 数 据 建 模 、 数 据 分 析 、 数 据 变现 这 几 个 主要 环节 中 ， 只 有 数据 建 
模 和 数据 分 析 这 两 个 环节 离 数 据 变现 ， 即 创造 价值 更 近 ; 而 数据 收集 和 数据 存储 这 两 个 环 
节 做 得 再 好 也 只 是 离 节约 成 本 更 近 ， 而 对 促进 市 场 化 普及 的 帮助 较为 间接 ， 

因 目 前 数据 分 析 书 籍 的 缺乏 ， 阅 读 门 槛 的 障碍 ， 业 内 人 士 对 知识 的 渴求 ， 种 种 因素 使 
我 决心 尝试 着 写 一 本 门槛 更 低 ， 更 易 理解 ， 更 “平民 化 ”的 数据 挖掘 与 机 器 学 习 的 书籍 . 
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1.4 小 结 


大 数据 产业 已 经 向 我 们 敞开 了 大 门 ， 整 个 产业 才刚 刚 开 始 昔 芽 ， 只 要 我 们 肯 多 进行 观 
察 、 学 习 和 思考 ， 任 何 领域 任何 业务 都 会 享受 到 大 数据 产业 为 我 们 带 来 的 各 种 好 处 。 

笔者 问 过 一 些 试 读 过 本 书 的 朋友 ， 他 们 有 的 是 大 专 毕 业 ， 有 的 是 大 学 本 科 毕 业 但 是 由 
于 专业 设 定 的 原因 没有 学 过 高 等 数学 ， 基 本 还 是 能 够 看 懂 。 

如 果 读 者 已 经 完成 大 专 或 者 大 本 的 学 业 ， 而 且 加 减 乘 除 、 寡 指 对 函数 这 些 概念 基本 没 
问题 ; 

如 果 读 者 对 “一 个 六 面 的 山子 在 丢 出 后 出 现 2 点 的 概率 是 116” 基 本 没 问 题 ; 

如 果 读 者 对 “一 个 匀 质 的 硬币 在 扔 出 1 000 次 后 ， 正 面 朝 上 和 反面 朝 上 的 次 数 基本 各 为 
500 次 ” 没 问题 ; 那么 请 读者 放心 大 胆 地 跟随 我 们 ， 我 们 将 用 最 令 人 放松 的 聊天 方式 开始 这 
次 轻松 的 白话 数据 挖掘 与 机 器 学 习 之 旅 。 
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步 入 数据 之 门 


数据 与 数据 应 用 中 的 许多 概念 彼此 有 着 干 丝 万 缕 的 联系 ， 同 时 也 有 着 概念 上 的 偏重 与 
区 别 ， 这 里 先 从 数据 应 用 领域 中 的 常见 概念 聊 起 。 


2.1 什么 是 数据 


数据 是 什么 ? 这 几乎 成 为 一 个 人 们 熟视无睹 的 问题 。 

有 不 少 朋友 脑子 里 可 能 会 直接 冒 出 一 个 词 “ 数 字 ” 一 一 “数字 就 是 数据 "， 我 相信 会 有 
一 些 朋 友 斩 钉 截 铁 地 说 。 

一 些 朋 友 会 在 稍 作 思考 后 回答 “数字 和 字符 、 字 母 ， 这 些 都 是 数据 ”。 


不 知道 你 现在 是 不 是 正在 纠结 哪个 回答 更 正确 ， 抑 或 第 二 个 回答 更 合理 
一 些 ， 这 里 先 放 一 放 。 先 看 下 面 这 组 例子 (图 2-1): 


这 里 有 6 个 0， 请 问 它 是 数据 吗 ? 图 21 例 1 
再 看 这 样 的 例子 (图 2-2 ): 


这 里 有 4 个 1 和 2 个 a， 那么 它 是 数据 吗 ? 
也 许 你 可 能 会 问 ,“ 这 到 底 是 什么 意思 ?” 不 错 ， 这 就 是 我 们 在 认识 数 


据 的 过 程 中 存在 的 一 个 很 要 命 的 问题 ， 几 乎 在 我 们 出 发 时 就 拦住 了 我 们 的 “图 z? 例 ? 
去 路 。 

我 们 回 过 头 再 想 想 刚才 的 问题 可 能 会 得 到 比较 令 自己 和 他 人 信服 的 回答 :“ 承 载 了 信息 
的 东西 ” 才 是 数据 ， 换 句 话 说， 不管 是 石头 上 刻 的 画 ， 或 者 是 小 孩子 在 沙滩 上 牌 牌 扭 扭 写 
出 的 字迹 ， 或 者 是 嬉 皮 士 们 在 墙 上 的 涂鸦 ， 只 要 它 表 达 一 些 确 实 的 含义 ， 那么 这 种 符号 就 
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可 以 被 认为 是 数据 。 而 没有 承载 信息 的 符号 就 不 是 数据 。 这 个 观点 似乎 看 上 去 要 比 前 面 的 
回答 理性 得 多 ， 也 科学 得 多 ,但 是 这 个 观点 真 的 不 需要 补充 了 吗 ? 

我 们 假设 这 两 个 例子 都 有 一 些 比较 特殊 的 场景 ， 假 设 第 一 组 里 出 现 的 6 个 0 其实 是 时 
分 秒 的 简写 ，000000 表示 00 点 00 分 00 秒 ， 而 如 果 写 作 112349 则 表示 11 点 23 分 49 秒 ， 
那么 它 是 不 是 也 是 数据 呢 ? 假设 第 二 组 出 现 的 4 个 1 和 2 个 a 其 实 是 一 组 密码 ，4 个 1 代表 
一 个 被 约定 的 地 点 ，aa 代表 一 种 被 约定 的 事件 ， 那 这 组 数字 和 字母 的 意义 也 有 了 相应 的 解 
读 ， 那 么 它 是 不 是 也 是 数据 呢 ? 

不 难看 出 ， 一 些 符 号 如 果 想 要 被 认定 为 数据 ， 那 就 必须 承载 一 定 的 信息 。 而 信息 很 可 
能 是 因 场 景 而 定 ， 因 解读 者 的 认 知 而 定 ， 所 以 一 些 符 号 是 不 是 可 以 被 当做 数据 ， 有 相当 的 
因素 是 取决 于 解读 者 的 主观 视角 的 。 不 知道 这 个 观点 你 是 不 是 认可 ， 总 之 这 点 很 重要 。 


22 什么 是 信息 


说 到 这 里 ， 我 的 同事 娟 娟 非常 认真 且 黎 有 介 事 地 跟 我 说 :“ 我 觉得 数字 、 字 母 、 图 像 ， 
这 些 都 是 数据 ， 跟 信息 不 信息 的 没什么 关系 。” 看 着 她 认真 地 跟 我 抬杠 ,我 觉得 齐 好 ， 至 少 
在 认识 数据 过 程 中 积极 思考 只 有 好 处 。 

信息 一 词 ， 在 没有 学 术 背 景 的 情况 下 其 实 有 着 很 多 解释 ， 例 如 ,广播 中 的 声音 、 互 联 
网 上 的 消息 、 通 信 系 统 中 传输 和 处 理 的 语音 对 象 ， 甚 至 是 小 区 和 校园 的 消息 看 板 (图 2-3 ), 
也 就 是 人 类 社会 传播 的 一 切 内 容 。 








CELIXIODI TA 





(c) 通信 系统 中 的 语音 (b) 消息 看 板 上 的 消息 
图 2-3 信息 的 表现 形式 
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1948 年 ， 数 学 家 香农 (Claude Elwood Shannon) 在 题 为 《通信 的 数学 理论 》 的 论文 中 
指出 :“ 信 息 是 用 来 消除 随机 不 定性 的 东西 "。 这 句 
话 如 果 举 个 例子 说 明 ， 大 概 可 以 想象 这 样 一 个 场景 emm 
(图 2-4). v 

我 说 了 两 句 话 : “我 今年 33 岁 ”，' 我 明年 34 岁 。” 

那么 第 一 句 话 如 果 是 为 了 向 不 了 解 我 的 人 介绍 我 
的 年 龄 而 可 以 算 作 信息 ， 第 二 句 话 则 不 是 信息 。 至 
少 你 会 觉得 说 了 第 一 名 以后， 后面 这 名 简直 就 是 废 
话 ， 因 为 从 第 一 句 话 完全 可 以 推导 出 来 。 

再 如 ， 某 一 天 巴西 足球 队 和 中 国足 球 队 进行 了 
比赛 。 

结果 第 二 天 张 三 告 诉 笔者 ,“ 昨 天 巴西 队 赢 了 . 

而 后 李 四 告诉 笔者 , “昨天 中 国 队 输 了 .” 

再 而 后 王 五 告诉 笔者 ,“ 昨 天 的 比赛 不 是 平局 .”( 图 2-5 ) 

















网 2-4 场景 1 









中 国 VS 巴西 





VE EGET 
了 ， 李 四 说 中 国 队 输 了 ， 
王 五 说 不 是 平局 






不 都 是 一 个 意思 友 | 





图 2-5 场景 2 


前 提 是 只 要 他 们 都 是 说 实话 的 人 ,那么 对 于 我 来 说 ， 也 就 只 有 张 三 的 话 能 算 信息 ， 李 
四 和 王 五 说 的 则 不 能 算 作 信 息 。 其 至 连 张 三 说 的 “昨天 巴西 队 启 了 ”这 句 话 是 否 能 够 被 算 
作 信 息 ， 我 们 都 要 表示 怀疑 ， 因 为 这 也 有 点 “废话 ”的 意味 一 一 但 凡 对 足球 运动 有 点 认识 
的 人 都 几乎 可 以 认定 ， 即 便 你 不 告诉 我 昨天 巴西 队 赢 了 ， 我 也 能 猜 个 八 九 不 离 十 ， 因 为 可 
能 性 实在 是 太 大 太 大 了 ， 大 到 几乎 是 一 定 的 ， 几 乎 是 毋庸 置疑 的 。 国 足 的 粉丝 们 请 放下 手 
中 的 自 鸡 蛋 和 烂 西 红 柿 ， 听 我 把 例子 讲 完 。 
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现在 对 信息 是 什么 清晰 多 了 吧 ? 我 们 可 以 粗略 地 认为 ,信息 就 是 那些 把 我 们 不 清楚 的 
事情 阐明 的 描述 ， 而 已 经 明确 或 者 知晓 的 东西 让 我 们 再 “知晓 ”一 遍 ， 这 些 被 知 会 的 内 容 
就 不 再 是 信息 了 。 这 个 概念 是 很 有 用 的 ， 我 们 后 面 在 讲 信息 论 的 时 候 也 会 再 做 定量 的 说 明 ， 
现在 只 做 一 个 定性 的 了 解 。 

数据 和 信息 是 我 们 在 数据 挖掘 和 机 器 学 习 领 域 天 天 要 打交道 的 基础 ， 也 是 我 们 研究 的 主 
要 对 象 。 所 以 对 数据 和 信息 有 一 个 比较 一 致 性 的 认识 对 后 面 咱们 讨论 问题 是 非常 有 好 处 的 。 


23 ”什么 是 算法 


算法 这 个 名 称 大 家 应 该 不 陌生 ， 如 果 你 是 一 个 信息 相关 专业 的 本 科学 生 ， 至 少 在 本 科 
一 年 级 或 者 一 年 级 就 接触 过 不 少 算法 了 。 随 便 打 开 一 个 人 力 资源 网 站 去 搜索 “算法 工程 师 ”， 
好 的 算法 工程 师 的 年 薪 能 到 三 五 十 万 甚至 上 百 万 。 

算法 是 什么 ? 算法 可 以 被 理解 为 “计算 的 方法 和 技巧 ”"， 在 计算 机 中 ， 算 法 大 多 数 指 的 
就 是 一 段 或 者 几 段 程序 ， 告 诉 计算 机 用 什么 样 的 逻辑 和 步骤 来 处 理 数据 和 计算 ， 然 后 得 到 
处 理 的 结果 。 

科班 出 身 的 信息 相关 专业 的 朋友 看 到 这 里 就 会 觉得 比较 亲切 了 ， 经 典 的 算法 有 很 多 ， 
如 ' 冒 泡 排序 " 算法 ， 这 几乎 是 所 有 学 习 高 级 语言 和 “数据 结 梅 ”课程 的 人 门 必 学 ; 再 如 “ 八 
皇后 问题 ”算法 ， 这 几乎 也 是 在 讲 穷 举 计算 时 的 经 典 保留 算法 案例 (就 是 在 国际 象棋 棋盘 上 
放 8 个 能 够 模 、 坚 、 斜 无 限制 前 进 的 皇后 ， 让 它们 之 间 互 
相 不 能 攻击 ， 求 有 多 少 种 解 ) ;以 及 MD5 算 法 、ZIp2 Jk; W 
算法 等 各 种 不 胜 枚 举 的 算法 。 图 2-6 所 示 为 八 皇 后 问题 的 
一 组 解 ， 经 过 穷 举 是 可 以 求 出 所 有 92 组 解 的 。 

应 该 说 算法 是 数据 加 工 的 灵魂 。 如 果 说 数据 和 信息 是 
原始 的 食材 ， 数 据 分 析 的 结论 是 菜肴 ， 那 么 算法 就 是 烹调 
过 程 ， 如 果 说 数据 是 玉 王 ， 数 据 中 蕴含 的 知识 是 价值 连城 
的 美 藉 ， 那 么 算法 就 是 玉石 打磨 和 加 工 的 机 床 和 工艺 流程 。 

算法 在 高 级 语言 发 展 了 很 多 年 之 后 ， 更 多 地 被 封装 成 
了 独立 的 函数 或 者 独立 的 类 ， 开 放 接口 供 人 调用 ， 然 而 算 
法 封装 得 再 好 也 是 不 能 不 假 思索 地 使 用 就 能 获 益 的 东西 ， 
要 知道 ， 这 些 封装 只 是 在 一 定 程度 上 避免 了 重复 发 明 轮子 而 已 。 

大 家 不 要 以 为 算法 全 都 是 算法 工程 师 的 事情 ， 跟 普通 的 程序 员 或 者 分 析 人 员 无 关 ， 算 
法 说 到 底 是 对 处 理 逻辑 理解 的 问题 。 

《孙子 兵法 . 作战 篇 》 有 云 ,“ 不 尽 知 用 兵 之 害 者 ， 则 不 能 尽 知 用 兵 之 利 "， 意 思 是 说 ， 
不 对 用 兵 打仗 的 坏处 与 弊端 进行 充分 了 解 同样 不 可 能 对 用 兵 打仗 的 好 处 有 足够 的 认识 。 算 
法 的 应 用 是 一 个 辩证 的 过 程 ， 不 仅 在 于 不 同 算法 间 的 比较 和 搭配 使 用 有 着 辩证 关系 ， 在 同 
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一 个 算法 中 ,不 同 的 参数 和 赣 值 设置 同样 会 带 来 大 相 径 庭 的 结果 ， 甚 至 影响 数据 解读 的 科 
学 性 。 这 一 点 请 大 家 务必 有 所 注意 。 


2.4 统计、 概率 和 数据 挖 据 


统计 、 概 率 、 数 据 挖 据 ， 这 几 个 词 经 常 伴随 出 现 ， 尤 其 是 统计 和 概率 两 个 概念 ， 几 乎 
就 像 自然 界 的 伴生 矿 一 样 分 不 了 家 ， 有 很 多 出 版 社 都 出 版 过 叫做 《概率 统计 》 的 书籍 。 

本 书 不 准备 从 学 术 的 角度 对 统计 和 概率 做 严格 的 区 分 ， 在 平时 工作 中 用 的 统计 大 多 为 
计数 功能 ， 如 在 使 用 Excel 时 会 用 到 COUNT, SUM, AVERAGE 等 统计 函数 ;如 软件 开发 
中 ， 在 用 SQL 语言 对 数据 库 的 某 些 字段 进行 计数 (count), RKA (sum)、 求 平均 (avg) 等 
函数 。 而 概率 的 应 用 大 多 则 是 根据 样本 的 数量 以 及 占 比 得 到 “可 能 性 ”和 “分 布 比例 ”等 
描述 数值 。 当 然 ， 概 率 的 用 法 远 不 止 这 些 ， 在 数据 挖掘 中 同样 用 到 大 量 概 率 相关 的 算法 ， 
后 面 会 有 相当 的 篇 幅 进行 说 明 。 

数据 挖掘 这 个 词 很 多 时 候 是 和 机 器 学 习 一 起 出 现 的 ， 现 在 网 上 对 这 两 个 词 的 关系 也 是 
莫衷一是 。 有 的 说 数据 挖掘 包含 机 器 学 习 ， 有 的 说 机 器 学 习 是 数据 挖掘 发 展 的 更 高 阶段 。 
在 笔者 看 来 ， 数 据 挖掘 和 机 器 学 习 这 样 的 词汇 命名 应 该 是 信息 科学 自然 进化 和 衍生 出 来 的 ， 
带 有 一 定 的 约定 俗 成 的 色彩 ， 人 们 的 看 法 见仁见智 也 在 情理 之 中 。 

我 的 观点 是 这 样 。 

首先 我 认为 没有 必要 一 定 要 给 两 个 词汇 划一 个 界限 ， 或 者 一 定 要 对 它们 做 严格 的 概念 
区 分 ， 因 为 区 分 的 标准 到 目前 本 就 没有 科学 而 无 争议 的 界定 ， 况 且 能 不 能 分 清 一 个 算法 属 
于 数据 挖掘 的 范畴 还 是 机 器 学 习 的 范畴 对 于 算法 本 身 使 用 是 没有 任何 影响 的 ， 这 两 个 词 大 
家 如 果 想 听 解 释 的 话 ， 不 妨 只 从 字面 意思 去 理解 就 已 经 足够 了 。 

数据 挖掘 一 一 首先 是 有 一 定量 的 数据 作为 研究 对 象 ， 挖 气 一 一 顾名思义 ,说 明 有 一 些 
东西 并 不 是 放 在 表面 上 一 眼 就 能 看 明白 ， 要 进行 深度 的 研究 、 对 比 、 杜 别 等 工作 ， 最 终 从 
中 找到 规律 或 知识 ,“ 挖 掘 ”这 个 词 用 得 很 形象 。 

机 器 学 习 一 一 先 想 想 人 类 学 习 的 目的 是 什么 ， 是 掌握 知识 ， 掌 握 能 力 ， 掌 握 技 巧 ， 最 
终 能 够 进行 比较 复杂 或 者 高 要 求 的 工作 。 那 么 类 比 一 下 机 器 ， 我 们 让 机 器 学 习 ， 不 管 学 习 
什么 ， 最 终 目的 都 是 让 它 独立 或 至 少 半 独立 地 进行 相对 复杂 或 者 高 要 求 的 工作 。 这 里 提 到 
的 机 器 学 习 更 多 是 让 机 器 帮助 人 类 做 一 些 大 规模 的 数据 识别 、 分 拒 、 规 律 总 结 等 人 类 做 起 
来 比较 花 时 间 的 事情 。 但 是 请 注意 ， 与 数据 挖掘 一 起 出 现 的 这 个 机 器 学 习 概 念 和 我 们 说 的 
“人 工 智 能 ”还 是 相差 其 远 ， 因 为 这 里 面 对 “ 智 能 ”的 考究 程度 实在 是 太 低 了 。 


























2.5 什么 是 商业 智能 
另 一 个 经 常 和 大 数据 一 起 出 现 的 词汇 是 商业 智能 (图 2-7 )， 也 就 是 我 们 平时 简称 的 BI 
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( Business Intelligence). 

商业 智能 业界 比较 公认 的 说 法 是 在 1996 年 最 早 由 
加 特 纳 集 团 (Gartner Group) 提出 的 一 个 商业 概念 ， 通 过 应 
用 基于 事实 的 支持 系统 来 辅助 商业 决策 的 制定 。 商 业 智能 技 
术 提 供 使 企业 迅速 分 析 数 据 的 技术 和 方法 包括 收集 、 管 理 
和 分 析 数 据 ， 将 这 些 数据 转化 为 有 用 的 信息 。 如 果 这 个 书本 
式 的 概念 读 起 来 还 是 比较 费解 ， 那 么 请 看 一 个 形象 的 比喻 。 

公司 在 日 常 运营 过 程 中 是 需要 做 很 多 决策 的 ， 无 时 无 刻 
部 存在 于 公司 的 各 个 方面 ， 而 决策 不 管 是 股东 大 会 讨论 还 是 
企业 领导 、 部 门 领导 直接 发 布 行政 命令 ,最 终 可 能 是 很 多 因 
素 共 同 影响 做 出 的 结果 ， 无 论 其 来 自主 观 还 是 客观 。 

这 些 决 策 可 以 如 何 得 出 呢 ? 可 以 由 领导 直接 和 赁 经 验 决 图 2-7 商业 智能 
定 ; 可 以 群策群力 开会 决定 ; 可 以 问 询 行业 专家 ; 其 至 可 以 
找 个 算 卦 先生 来 占卜 …… 从 概念 来 说 都 是 属于 辅助 决策 。 而 显然 ， 我 们 都 期 望 不 论 最 终 是 
如 何 做 出 的 这 些 决 策 和 命令 ， 它 们 都 应 该 是 更 为 理性 、 科 学 、 正 确 的 。 但 是 如 何 帮助 他 们 
做 出 更 为 理性 、 科 学 、 正 确 的 决策 呢 ? 商业 智能 整体 就 是 研究 这 样 一 个 课题 ， 到 目前 为 止 ， 
业界 普遍 比较 认可 的 方式 就 是 基于 大 量 的 数据 所 做 的 规律 性 分 析 。 因 而 ， 市 面 上 成 熟 的 商 
业 智 能 软件 大 多 都 是 基于 数据 仓库 做 数据 建 模 和 分 析 ， 以 及 数据 挖掘 和 报表 的 。 

可 以 说 ， 商 业 智能 是 一 个 具体 的 、 大 的 应 用 领域 ， 也 是 数据 挖掘 和 机 器 学 习 应 用 的 一 
个 天 然 杂 密 的 场景 。 而 且 商 业 智能 这 个 解决 问题 的 理念 其 实 不 仅仅 可 以 应 用 于 商业 ， 还 可 
以 应 用 于 国防 军事 、 交 通 优化 、 环 境 治理 、 盟 情 分 析 、 气 象 预测 等 。 








2.6 小结 


数据 的 认识 和 数据 的 应 用 是 大 数据 与 机 器 学 习 的 基础 ， 数 据 、 信 息 、 算 法 、 概 率 、 数 
据 挖 据 、 商 业 智 能 ， 这 些 是 大 数据 最 为 核心 的 基础 概念 与 要 素 。 当 我 们 对 这 些 概念 有 了 清 
楚 的 认识 ， 并 能 够 清楚 说 出 这 些 概 念 之 间 的 辩证 关系 时 ， 我 们 就 已 经 在 数据 大 门 的 里 面 了 ， 
怎么 样 ， 是 不 是 很 简单 ? 下 面 就 让 我 们 一 步 一 步 地 深入 理解 这 些 概 念 的 细节 以 及 它们 的 应 
用 技巧 吧 。 
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己 得 我 在 上 中 学 和 上 大 学 的 时 候 ， 有 一 些 号 边 的 同学 就 抱怨 :“ 真 不 知道 这 些 定理 们 都 


是 哪儿 来 的 ， 是 天 上 掉 下 来 的 还 是 哪个 数学 家 
哪 天 睡觉 做 梦 突 然 梦 见 的 ”。 大 家 听 了 不 住地 
RE, AWAARA, TEA AVEK 
(图 3-1 )。 

在 我 印象 里 ， 高 中 的 时 候 当 时 其 实 有 不 少 
同学 的 数学 成 绩 还 是 相当 不 错 的 ， 但 是 也 会 偶 
尔 发 发 牢骚 ,“ 每 个 公式 我 都 背 得 很 熟 ， 每 个 
题 我 也 都 会 做 ， 我 就 是 不 知道 将 来 这 些 东 西 能 





还 有 的 朋友 对 数学 确实 有 兴趣 ， 但 是 看 到 
复杂 的 公式 就 两 眼 发 花 、 瞳 孔 放 大 ， 抱 着 《 概 
率 论 》《 高 等 数学 》 这 些 大 部 头 的 书 满 尖 大 汗 ， 
难以 入 定 。 不 知道 你 身边 的 同学 朋友 里 有 没有 
对 数学 又 爱 又 恨 的 人 。 





| sina-zeanteu2M tret 


(a) uu 





图 3-1 对 数学 定理 感到 疑惑 


其 实数 学 本 身 本 不 应 是 高 高 在 上 的 学 科 ， 它 来 源 于 人 类 的 生产 生活 ， 也 扎根 于 人 类 的 
生产 生活 ， 它 本 身 无 处 不 在 ， 只 是 我 们 早已 习惯 了 它 以 孤傲 的 脸 孔 出 现在 书本 上 ， 才 让 我 
们 感到 格外 地 陌生 和 牙 远 。 我 们 有 没有 尝试 着 重新 用 更 平和 和 更 朴实 的 目光 再 一 次 认识 一 
下 这 些 和 我 们 本 应 水 乳 交融 的 平民 数学 ?我 们 需要 平民 化 的 数学 应 用 ， 需 要 用 更 为 平民 化 





的 语言 把 简洁 生 涩 的 公式 定理 表述 得 更 加 接地 气 。 
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3.1 ”排列 组 合 的 概念 


3.1.1 公平 的 决断 一 一 扔 硬币 


排列 组 合 是 本 书 介绍 的 第 一 个 概率 论 概念 ， 也 是 在 高 中 学 过 的 一 个 概率 学 的 入 门 概 


念 记 不 清 了 也 不 要 紧 ， 现在 回忆 一 下 


中 学 学 过 的 排列 组 合 都 有 哪些 经 典 问题 
着 。 


念 。 
在 
来 

首先 是 扔 硬币 (图 3-2) 

如 果 一 个 匀 质 的 硬币 也 就 是 扔 出 正面 
朝 上 和 反面 朝 上 各 有 一 半 可 能 性 的 人 硬币， 我 们 
连 扔 3 次 , 产生 3 次 朝 上 的 可 能 性 有 多 大 ? 

这 个 计算 应 该 不 算 难 ， 首 先 每 一 次 扔 出 ， 
每 一 个 面 的 可 能 性 是 一 样 的 ， 即 正面 1/2 的 
可 能 性 ， 反 面 也 是 1/2 的 可 能 性 。 

那么 第 一 次 扔 ， 正 面 朝 上 是 1/2 的 可 能 
性 ， 反 面 朝 上 也 是 1/2 的 可 能 性 。 

在 第 一 次 正面 朝 上 的 情况 下 ， 第 二 次 扔 ， 
1/2 的 可 能 性 。( 即 正 正 ， 正 反 。) 








图 3-2 排列 组 合 的 经 典 场景 一 一 扔 硬币 ( 见 彩 插 ) 
正面 朝 上 的 可 能 性 仍然 是 1/2, 反面 朝 上 也 是 


而 在 第 一 次 反面 朝 上 的 情况 下 ， 第 二 次 扔 ， 正 面 朝 上 的 可 能 性 仍然 是 12， 反 面 朝 上 也 


是 1/2 的 可 能 性 。( 即 反正 ， 反 反 。) 

也 就 是 说 连 扔 两 次 ， 两 次 结果 为 “ 正 正 ” 
全 一 样 的 ， 各 是 1/4。 

以 此 类 推 ， 连 扔 3 次 ,3 次 都 是 正面 
朝 上 的 可 能 性 应 该 为 8， 即 概率 为 1/8 或 
12.5%。 也 就 是 说 ,3 次 朝 上 分 别 为 “ 正 正 正 ”、 
JEER x “ERE ERE” ChYE4E «& 
“反正 反 ”、“ 反 反正 ”、“ 反 反 反 ”。 这 几 种 的 
可 能 性 是 一 样 大 的 (图 3-3 )。 

我 们 可 以 想 想 在 生活 中 的 例子 ， 扔 硬币 
和 扔 角子 很 多 时 候 都 作为 大 家 和 凭 运气 讲 公平 
的 一 种 裁决 手段 ， 如 两 个 人 打赌 赌 单 双 数 或 
者 大 小 数 , 4 个 人 打 麻 将 决定 抓 牌 位 置 ， 我 
们 都 会 借助 硬币 或 者 货 子 这 样 的 几率 产生 均 
等 的 工具 来 将 公平 进行 到 底 ， 当 然 那 些 手法 


\、“ 正 反 ”、“ 反 正 ”“ 反 反 ” 的 可 能 性 都 是 完 





图 3-3 正 反 面 朝 上 的 可 能 性 
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出 众 或 者 出 老 千 的 情况 除外 。 

在 影视 作品 里 兽 看 到 过 一 些 赌 徒 为 了 让 自己 扔 骨 子 掷 出 6 点 的 概率 增加 而 在 6 点 的 正 
对 面 放置 铅 弹 一 类 的 重 物 ， 使 得 货 子 的 6 个 面 中 RÆ, MEAT? 

6 点 被 挪 出 的 几率 远 高 于 其 他 几 面 (图 3-4). mi N 
一 旦 被 人 识破 ， 该 赌 徒 则 会 被 其 他 赌 徒 殴打 甚至 
是 杀害 。 显 然 ， 在 事先 得 知 仍 子 被 做 了 如 此 手脚 
之 后 ， 是 不 会 再 有 兴趣 和 该 财 徒 博弈 的 ， 因 为 掌 
握 这 种 严重 不 对 称 信息 的 人 会 成 为 不 败 的 赢家 ， 
因为 这 种 机 会 的 均等 性 被 破坏 了 ， 造 成 极 大 的 图 3.4 CURAE" MM 

“不 公平 "。 

如 果 一 个 随机 试验 所 包含 的 单位 事件 (就 是 刚才 说 的 3 次 朝 上 分 别 为 “ 正 正 正 ”、“ 正 正 
反 ”…… 这 其 中 每 一 种 情况 都 是 单位 事件 ) 是 有 限 的 ， 量 每 个 单位 事件 发 生 的 可 能 性 均 相 等 ， 
则 这 个 随机 试验 叫做 拉 普 拉 斯 试验 ， 这 种 条 件 下 的 概率 模型 就 叫 十 典 概 型 。 古 典 概 型 也 叫 
传统 概率 ， 该 定义 是 由 法 国 著名 数学 家 拉 普 拉 斯 (Laplace) 提出 的 。 

这 种 使 用 穷 举 有 限 多 个 可 能 性 ， 并 且 根 据 可 能 性 在 所 有 事件 中 所 占 比 例 求 出 可 能 性 的 
问题 ， 就 可 以 使 用 排列 组 合 的 方式 来 进行 计算 。 


3.1.2” 非 古典 概 型 

上 述 “ 古 典 概 型 ”的 特点 是 “包含 的 单位 事件 是 有 限 的 ， 且 每 个 单位 事件 发 生 的 可 能 
性 均 相 等 ”。 单 位 事件 指 的 就 是 抛 出 一 个 “ 正 正 正 ” 或 者 “ 正 正 反 ”这 种 一 个 确定 的 试验 结 
果 的 事件 。 可 能 性 均等 就 是 “ 正 正 正 ”、“ 正 正 反 ”……: 一 共 8 种 情况 ， 每 种 情况 产生 的 机 
会 是 一 样 的 。 

那么 是 不 是 也 有 不 符合 古典 概 型 的 反例 呢 ? 也 就 是 说 “包含 的 单位 事件 不 是 有 限 的 或 
每 个 单位 事件 发 生 的 可 能 性 不 均等 ” 则 不 算是 古典 概 型 ， 有 这 样 的 例子 吗 ? 

有 的 。 首 先 ， 刚 刚 提 到 的 赌 徒 改造 骨 子 的 例子 就 是 “每 个 单位 事件 发 生 的 可 能 性 不 均 
等 ”的 例子 ， 那 么 这 种 情况 下 就 不 能 使 用 穷 举 、 排 列 组 合 的 方法 进行 计算 ， 算 出 来 也 和 试 
验 结果 不 一 致 ， 再 者 ， 还 是 使 用 货 子 掷 数 的 例子 ， 用 两 个 仍 子 来 括 。 因 为 每 个 仍 子 的 掷 出 
范围 为 1 一 6 个 点 ， 所 以 两 个 山子 扔 出 的 范围 是 2 ~ 12 AA. BERAE, BARTA 
出 每 个 点 的 机 会 是 一 样 的 ， 但 是 2 一 12 这 11 个 点 产生 的 可 能 性 不 是 一 样 的 。 两 个 蜗 子 都 
扔 出 1 才 产 生 2， 所 以 概率 为 136， 同 理 12 的 概率 也 是 1136。 但 是 6 就 不 一 样 了 ， 两 个 骨 
子 的 点 数 可 以 为 1 和 5、2 和 4、3 和 3、4 和 2、5 和 1， 每 种 情况 的 概率 都 是 136， 相 加 得 
5/36. BrLDSV-T PATERE T-318 2 ~ 12 个 点 ， 每 个 点 产生 的 概率 可 就 不 一 样 了 ， 那 每 个 点 的 
概率 必然 不 能 是 1/111。 好 在 产生 2 — 12 这 11 个 点 的 每 种 情况 中 ,各自 是 由 两 个 古典 概 型 
组 成 的 ， 还 能 分 解 以 后 各 自 求解 (图 3-5 )。 
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图 3-5 PARTIR AAA 


而 “包含 的 单位 事件 不 是 有 限 的 ”这 种 例子 其 实 也 很 多 ， 例 如 ， 我 想 知道 我 每 天 出 门 
碰 到 熟人 的 概率 。 这 种 问题 用 古典 概 型 也 是 不 能 解决 的 ， 所 有 单位 事件 的 定义 非常 复杂 ， 
每 个 单位 事件 也 不 能 通过 类 似 扔 角子 这 么 简单 的 事情 就 描述 清楚 ， 还 有 时 间 、 地 点 等 各 种 
复杂 的 情况 ， 当 然 是 没有 办 法 用 古典 概 型 来 获 解 的 。 


3.2 ”排列 组 合 的 应 用 示例 


3.2.1 WERKA 

双色 球 彩 票 在 中 国 的 历史 不 算 短 了 ， 大 概 是 从 2003 年 2 月 就 开始 在 中 国联 网 发 售 。 虽 
然 有 很 多 人 都 在 诉 病 说 双色 球 开 奖 的 方式 不 够 公平 透明 ， 但 是 还 有 
相当 多 的 彩民 一 直 在 执着 地 研究 双色 球 开奖 的 规律 (图 3-6 )。 

这 里 只 从 数学 的 角度 来 看 一 下 双色 球 彩 票 的 头 奖 和 你 花 两 块 钱 
下 注 购 买 的 彩票 一 致 性 的 概率 ， 也 就 是 人 们 平时 说 的 买 一 注 然后 就 
能 中 头 奖 的 概率 有 多 大 。 这 里 必须 先 明 确 一 个 前 提 ， 就 是 确实 没有 
人 对 彩票 购买 和 抽奖 小 球 的 抽出 做 干预 ， 换 而 言 之 ， 就 是 你 下 的 这 
一 注 是 在 完全 不 知道 开奖 结果 的 情况 下 买 的 ， 抽 奖 也 是 在 每 个 球 被 
抽出 的 概率 一 样 的 情况 下 进行 的 。 

我 们 购买 一 注 彩 票 的 时 候 ， 首 先 选择 红 球 , 从 01 一 33 共 33 个 
号 码 中 选择 6 个 号 码 。 再 选择 蓝 球 , 从 01 一 16 共 16 个 号 码 中 选择 1 个 号 码 。6 红 1 蓝 一 
共 7 个 号 码 组 成 完整 的 一 注 彩票 。 

最 终 抽奖 的 时 候 也 会 是 从 01 ~ 33 共 33 个 红色 号 码 中 选择 6 个 号 码 ， 再 从 01 — 1635 
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16 个 蓝 色 号 码 中 选择 1 个 号 码 。6 £L 1 蓝 一 共 7 个 号 码 组 成 完整 的 一 注 头 奖 彩 票 。 
如 果 选 择 的 6 红 1 蓝 和 头 奖 的 6 红 1 蓝 完全 一 致 那 就 算 中 了 头 奖 ， 奖 金 怎 么 算 …… 这 
个 大 家 去 问 福利 彩票 中 心 吧 ， 咱 们 这 里 只 算 概 率 。 
先 算 算 挑选 6 红 1 蓝 一 共有 多 少 种 挑 法 。 
首先 先 从 33 个 红 球 中 挑选 6 个 红 球 ， 用 组 合 的 方式 计算 Ch : 
_ 33x32x31x30x29x28 


c. =—=— ———————— -1107 568 
6x5x4x3x2xl 





也 就 是 1 107 568 种 选 法 。 

再 从 16 个 蓝 色 球 中 选 1 个， 一 共有 16 种 选 法 。 

这 样 6 红 1 蓝 的 选 法 一 共有 1 107 568 x 16=17 721 088 种 。 

举 个 形象 点 的 例子 ， 老 天 和 爷 在 想 1 到 17 721 088 中 的 一 个 整数 ， 你 也 在 想 1 到 17 721 088 
中 的 一 个 整数 ， 你 们 俩 想 的 完全 一 样 的 概率 有 多 大 ? 没 错 ， 是 /17721088， 大 约 是 
0.000 000 056 4% 的 概率 。 

不 少 人 说 ， 这 没关系 ,反正 有 一 些 破解 方法 。 有 哪些 破解 方法 ?支持 以 下 两 种 方法 的 
人 比较 多 。 

方法 一 : 多 买 几 种 组 合 。 

那 就 算 算 看 ,一 共 17 721 088 种 可 能 ,全 部 买 下 来 一 一 也 就 是 俗称 的 全 和 餐 彩票 ,一共 
要 花 35 442 176 元 人 民 币 。 奖 池 是 不 是 在 所 有 中 头 奖 的 人 平分 后 还 能 至 少 分 到 手 这 么 多 不 
好 说 (加 上 二 等 奖 、 三 等 奖 一 共 能 领 到 多 少 钱 都 可 以 自己 算 )。 按 照 比例 缩小 一 些 试 试 呢 ? 
比如 买 一 半 ， 那 就 是 中 奖 概率 变 成 1/2 一 一 要 花 17 721 088 元 , 还 有 一 半 的 可 能 性 是 不 中 。 
其 他 比例 读者 可 以 自己 计算 。 每 一 种 比例 在 降低 投入 的 同时 ， 也 在 降低 中 奖 概率 。 所 以 这 
种 方式 并 没有 提高 买 彩票 的 投入 产 出 比 。 

方法 二 : 只 买 一 种 组 合 ， 坚 持 到 底 ， 就 能 提高 胜率 。 

有 这 样 思想 的 朋友 估计 是 这 么 一 个 思路 ， 就 是 这 一 次 这 种 组 合 不 中 ， 由 于 每 种 组 合 概 
率 一 样 ， 所 以 在 多 次 随机 过 程 里 前 面 出 现 过 的 组 合 后 面 出 现 的 概率 就 低 ， 前 面 没 出 现 过 的 
组 合 后 面 出 现 的 概率 就 高 。 有 这 样 思路 的 朋友 ， 想 想 这 样 一 个 事情 ， 交 通 事故 其 实 是 一 个 
典型 的 随机 事件 ， 平均 每 个 月 发 生 交 通 事故 的 数量 是 相对 “固定 ”的 ， 只 是 发 生 的 地 点 、 
发 生 的 时 间 、 发 生 的 车 型 、 涉 及 的 人 可 能 不 同 而 已 。 

那么 如 果 要 避免 交通 事故 ， 就 要 先 人 为 制造 一 些 无 害 的 交通 事故 ， 造 够 了 次 数 ， 这 个 
月 就 不 会 再 发 生 交通 事故 了 ， 大 家 也 可 以 安心 上 路 了 。 这 个 逻辑 就 变 得 顺理成章 ， 但 是 事 
实 真 的 会 是 这 样 吗 ? 

这 种 随机 产生 的 每 一 次 结果 之 间 其 实 是 独立 的 概率 ， 换 名 话说 每 一 次 结果 是 不 会 影响 
前 后 随机 事件 里 产生 的 结果 的 ， 也 不 会 影响 到 前 后 的 随机 事件 的 结果 。 在 静态 概 型 里 ， 这 
个 结论 请 大 家 牢记 。 也 有 人 表示 怀疑 ,说 我 明明 在 一 些 事情 里 看 到 前 一 件 事 发 生 后 会 影响 
后 面 事件 发 生 的 可 能 性 ， 那 这 种 事情 怎么 解释 。 这 种 事情 ， 首 先 不 是 古典 概 型 的 范畴 ， 如 
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果 要 归 类 的 话 可 以 算 作 条 件 概 率 的 研究 范畴 ， 条 件 概率 在 后 文 会 详细 讲解 。 


3.22 ”购车 摇号 

北京 是 一 个 以 拥堵 著称 的 城市 ， 拥 墙 的 问题 也 是 由 来 已 入 ， 而且 几乎 是 越 来 越 严 重 。 
在 万 般 无 奈 的 情况 下 ， 专 家 们 最 后 祭 出 了 一 个 大 招 一 一 摇号 。 

摇号 是 一 个 带 有 上 比较 浓郁 配给 制 色 彩 的 手段 。 大 概 的 形式 就 是 ， 每 个 已 经 具备 播 号 资格 
的 人 登记 一 下 身份 证 号 码 ， 所 有 登记 过 身份 
证 号 码 的 人 都 放 在 一 个 大 “池子 ”里 ， 然 后 
每 两 个 月 通过 “随机 ”的 方式 产生 20 000 个 
号 码 ， 这 20 000 个 幸运 儿 就 是 中 签 者 ， 就 拥 
有 了 购买 一 辆 汽油 动力 汽车 的 配额 (图 3-7 )。 

中 签 概 率 多 大 呢 ? 有 人 想到 直接 用 
20 000 除 以 1 420 000 就 是 自己 中 签 的 概率 。 
但 是 为 什么 是 这 么 算 呢 ? 有 理论 依据 吗 ? 下 
面试 着 推导 一 下 。 

以 真实 数据 为 例 ，2015 年 9 月 这 个 “ 池 
子 ” 里 大 约 有 1 420 000 个 号 ， 从 里 面 选 出 
20 000 个 号 ， 一 个 人 中 签 的 概率 有 多 大 ? 稍 
微 想 想 看 ， 这 个 数值 也 不 会 是 Ci,”,,,， 因 为 
不 是 要 求 1 420 000 个 号 里 找 出 20 000 个 号 
一 组 的 不 同 组 合 。 图 3-7 ”汽车 摇号 

在 没有 其 他 政策 进行 干预 而 将 1 420 000 个 号 码 进 行 等 概率 选 出 的 情况 下 ， 选 出 20 000 
个 号 ， 而 自己 的 号 正好 在 其 中 。 相 当 于 用 一 个 1 420 000 面 的 仍 子 投掷 一 次 选 出 一 个 号 ， 然 
后 把 这 个 号 抹 掉 ， 再 用 剩余 的 1 419 999 个 号 做 成 一 个 1 419 999 mif] m T, BEBEDE—JÓX, 
选 出 一 个 号 ， 然 后 把 这 个 号 再 抹 掉 …… 一 次 一 次 下 去 ， 直 到 20 000 次 为 止 。 实 际 相 当 于 这 
么 一 个 过 程 。 

想 不 清 楚 的 话 试 试用 小 一 点 的 数字 找 找 感觉 。 

如 果 是 有 3 个 人 参与 摇号 ， 摇 出 2 个， 是 怎么 计算 呢 ? 

按照 这 种 扔 仍 子 的 方法 来 玩 ， 假 设 我 们 有 个 3 MHRT (其 实 真 的 是 没 办 法 做 出 一 个 3 
个 面 的 等 概率 仍 子 ， 我 们 就 当真 的 能 做 出 来 好 了 )。 第 一 次 我 被 仍 子 选中 的 概率 为 113 ， 还 
有 2/3 是 没 被 选中 的 概率 。 在 没 选 中 的 情况 下 ， 换 2 个 面 的 骨 子 ， 这 一 次 我 被 山子 选中 的 概 
率 为 1/2。 

算 算 我 能 被 选中 的 概率 一 共 是 多 少 吧 ， 
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如 果 是 6 个 人 参与 播 号 ， 摇 出 3 个 ， 是 怎么 计算 呢 ? 

仍然 用 扔 货 子 的 方法 ， 同 理 : 

第 一 次 ， 选 中 的 概率 为 /6， 没 选中 的 概率 为 5/6， 现 在 该 换 5 TET T o 
第 二 次 ， 选 中 的 概率 为 /5， 没 选中 的 概率 为 44$， 现 在 该 换 4 面 的 货 子 了 。 
第 三 次 ， 选 中 的 概率 为 /4， 没 选中 的 概率 为 3/4， 结 束 。 

被 选中 的 概率 是 多 少 呢 ? 


(i Jr | ! E eres 
6 6) 5 6 6/5] 4 6 

如 果 有 兴趣 可 以 继续 用 其 他 例子 去 算 ， 我 们 现在 直接 说 结论 了 ， 这 种 情况 其 实 就 是 用 
掷 避 子 的 次 数 除 以 最 开始 蜗 子 的 总 面 数 ， 也 就 是 一 共 选 出 的 次 数 除 以 全 样本 空间 的 大 小 。 
20 000/1 420 000 这 个 答案 是 没有 问题 的 ， 也 就 是 中 签 率 为 1.4% 左右 ， 一 年 摇号 6 次 的 话 ， 
估计 运气 最 差 的 人 要 11.8 年 才能 抽 中 ， 听 到 这 样 的 消息 现在 整个 人 都 不 好 了 。 不 过 别 忘 了 ， 
每 个 月 这 个 “池子 ”还 在 变 大 ， 究 况 等 多 久 可 能 只 有 老 天 知 道 了 。 我 们 这 里 只 从 理论 上 讲 
解 了 计算 的 原理 ,但 是 和 实际 的 计算 方法 还 是 有 区 别 的 ， 毕 竞 实 际 的 六 选 规则 也 是 在 不 断 
变化 ， 例 如 对 长 时 间 未 选中 的 号 码 加 北 选 权重 ,这 样 计算 起 来 更 为 复杂 一 些 。 














3.2.3 ”德州 扑克 

七 零 后 和 八 零 后 的 朋友 估计 对 香港 影星 周润发 很 熟悉 ， 尤 其 是 发 哥 在 《财神 》 系 列 中 
风流 侦 侥 的 表演 给 人 留 下 很 深 的 印象 ， 其 中 最 后 发 哥 和 大 BOSS 单 挑 基本 玩 的 都 是 “ 梭 
哈 ” 一 一 英文 名 称 Show Hand。 梭 哈 和 我 们 今天 要 说 的 德州 扑克 在 牌 点 大 小 比较 的 规则 上 
是 非常 近似 的 。 

德州 扑克 是 很 多 年 轻 人 都 喜欢 的 扑克 竞技 游戏 ， 全 称 是 Texas Hold'em Poker， 中 文 简 
称 德州 扑克 。 这 里 研究 一 下 各 种 牌 型 出 现 的 概率 。 

对 于 不 熟悉 德州 扑克 规则 的 读者 来 说 ， 还 是 有 必要 先 简单 描述 一 下 德州 扑克 的 规则 。 

一 张 台面 至 少 2 人 ， 最 多 22 人 ， 一 般 是 由 2 ~ 10 人 参加 。 德 州 扑克 一 共有 52 张 牌 ， 
没有 王牌 。 每 个 玩家 分 2 张 牌 作为 “底牌 ”5 张 由 荷 官 (专业 发 牌 的 人 ) 陆续 朝 上 发 出 的 
公共 牌 。 开 始 的 时 候 ， 每 个 玩家 会 有 2 张 面 萌 下 的 底牌 。 经 过 所 有 押 注 圈 后 ， 若 仍 不 能 分 
出 胜 负 ， 游 戏 会 进入 “摊牌 ”阶段 ， 也 就 是 让 所 剩 的 玩家 亮 出 各 自 的 底牌 以 较 高 下 ， 持 大 

第 一 轮 是 在 每 位 玩家 只 能 看 到 自己 2 张 底牌 的 情况 下 加 注 。 

第 二 轮 是 在 每 位 玩家 能 看 到 自己 2 张 底牌 ， 以 及 桌面 上 3 张 公共 牌 的 情况 下 加 注 。 

第 三 轮 是 在 每 位 玩家 能 看 到 自己 2 张 底牌 ， 以 及 桌面 上 4 张 公 共 牌 的 情况 下 加 注 。 

第 四 轮 是 在 每 位 玩家 能 看 到 自己 2 张 底牌 ， 以 及 桌面 上 5 张 公 共 牌 的 情况 下 加 注 。 

最 多 只 会 经 历 这 4 轮 ， 一 局 游戏 结束 。 

游戏 的 输赢 就 是 看 玩家 自己 的 2 张 底牌 与 桌面 上 当前 已 开 出 的 公共 牌 ， 一 共 挑 选 出 5 
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张 ， 组 成 最 “大 ”的 牌 ， 哪 位 玩家 的 牌 组 合 最 “大 ”， 哪 位 玩家 就 获得 胜利 。 

牌 的 组 合 大 小 怎么 定义 呢 ? 

对 博弈 类 游戏 有 所 了 解 的 读者 可 能 会 有 一 些 常识 性 的 体会 一 一 组 合 出 现 的 可 能 性 越 小 
的 通常 牌 越 “ 大 ”。 那 德州 扑克 里 都 有 哪些 组 合 呢 ? 

第 一 等 : 同 花 大 顺 。 相 同 花 色 的 A、K、Q、J、10 (图 3-8 )。 

第 二 等 : 同花顺 。 相 同 花 色 的 5 张 牌 相连 。 例 如 ， 红 桃 6、7、8、9、10, 黑 桃 9、10 、 丁 、 
Q、 开 等 (图 3-9 )。 


T ` 


图 3-8 同 花 大 顺 图 3-9 同 共 顺 
第 三 等 : 四 条 。4 张 相同 点 数 的 牌 。 例 如 ，4 张 8，4 张 Q 等 (图 3-10 )。 
第 四 等 : 满堂 红 (也 叫 戎 芦 )。3 张 相 同 点 数 的 牌 ， 再 加 2 张 相 同 点 数 的 牌 。 例 如 ，3 张 
5 和 2 张 9, 33K K HI 2 9K 10 ^5 CE] 3-10 )。 








图 3-10 四 条 图 3-11 满堂 红 


第 五 等 : ME. 5 张 相同 花色 的 牌 ， 但 不 是 同花顺 。 例 如 ，5 张 牌 都 是 方块 ，5 张 牌 都 
是 梅花 等 (图 3-12 ) 。 

第 六 等 : 顺 子 。5 张 点数 相 连 的 牌 ， 但 至 少 包含 两 种 花色 。 例 如 ,方块 2、 方块 3、 梅 
花 4、 红 桃 5、 红 桃 6， 红 桃 8、 方 块 9、 梅 花 10、 红 桃 J]、 黑 桃 Q 等 (图 3-13 )。 
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图 3-12 同 花 图 3-13 IMF 


第 七 等 : 三 条 。3 张 相 同 点 数 的 牌 ， 再 加 2 张 不 同 点 数 的 牌 。 例 如 ,，3 张 9 和 1 张 3、1 
JEK, 33K QI L SK A, 13K 6 55 CIEL 3-14). 

第 八 等 : 两 对 。2 张 相同 点 数 的 牌 作为 一 对 ， 两 对 牌 ， 再 加 1 张 单 牌 。 例 如 ，2 张 5、2 
JK9, 19K A, 23K 10, 23K J, 1 张 玉 等 (图 3-15 )。 





K 3-14 三 条 图 3-15 两 对 


第 九 等 : 一 对 。2 张 相 同 点 数 的 牌 作 为 一 对 ， 一 对 牌 ， 再 加 3 张 单 牌 。 例 如 ，2 张 10、 
13K 7, 13K 8, 13K 9, 29K A, 13KÉK. 13K 9, 13K 5 
等 (图 3-16 )。 al PS 
第 十 等 : 高 牌 。 高 牌 即 单 牌 ， 不 满足 前 面 九 等 牌 中 
任何 一 种 的 ， 就 只 能 按照 点 数 大 小 按 顺 序 决定 高 低 了 。 
A 比 K 大 , K 比 Q 大 ,以 此 类 推 '2 最小。 
这 里 试 求 一 下 ， 一 个 人 自己 摸 牌 (没有 任何 第 二 个 
玩家 参与 的 情况 下 )， 前 三 等 牌 被 摸 到 的 概率 有 多 大 。 
请 注意 ， 在 没有 开始 摸 牌 之 前 ， 如 果 牌 被 洗 过 若干 = 
次 〈 没 有 其 他 人 为 干扰 因素 )， 牌 的 发 放 是 随机 的 。 而 一 
且 底 牌 发 放 以 后 ， 尤 其 是 玩家 自己 看 过 牌 以 后 ， 这 个 时 图 3-16 一 对 
ww ai bbt. com [] [] E] E] D] LU] D] 
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候 的 概率 计算 和 现在 要 讨论 的 这 种 概率 计算 是 不 一 样 的 一 一 显然 ， 一 个 是 完全 随机 的 ， 一 
个 是 有 一 定 条 件 的， 条 件 就 是 刚刚 看 到 的 那 两 张 底牌 ， 而 这 种 情况 暂时 不 讨论 。 

那么 这 种 情况 下 ， 整 个 选 牌 的 过 程 相当 于 从 整 副 牌 52 张 中 选 出 7 张 ， 并 从 中 组 合 出 最 
大 牌 的 过 程 ， 即 





CL : 52x51x50x49x48x47x46 —133 784 560 
ý 7x6x5x4x3x2x1 
7 张 牌 的 组 合 一 共有 133 784 560 种 。 


1. 同 花 大 顺 

在 所 有 的 组 合 中 有 和 多少 是 同人 花 大 顺 的 呢 ?” 同 花 大 顺 一 共 4 种， 分别 是 黑 桃 、 红 桃 、 梅 
花 、 方 块 的 10、J、Q、K、A。7 张 牌 里 面 ，5 张 已 经 确定 ， 另 外 2 张 怎 么 选 都 无 所 谓 。 以 
黑 桃 为 例 ， 黑 桃 的 同 花 大 顺 选 出 后 ， 其 实 还 有 47 张 牌 没有 发 ， 挑 出 2 张 ， 即 


47x46 


C = j.p 71081 





同 理 ， 红 桃 、 梅 花 、 方 块 的 同 花 大 顺 也 是 一 样 的 ， 都 是 1 081 种 组 合 ， 即 同 花 大 顺 共 计 
有 4324 种 组 合 。 因 此 概率 是 
4 324 


n PRISE 0, 
133 784 560 Mund 


2. 同花顺 
同花顺 有 多 少 种 情况 呢 ? 以 黑 桃 为 例 ， 假 设 A 一 5 组 成 同花顺 ， 黑 桃 6 是 不 能 发 的 ， 
还 剩 下 46 张 可 以 组 合 ， 则 这 种 情况 下 组 合 数量 为 





TAE 
2x1 
2 一 6 组 成 同花顺 ，7 是 不 能 发 的 ，A 可 以 发 (A 作为 散 牌 )， 所 以 还 是 
C; —-1035 


以 此 类 推 ， 黑 桃 的 组 合 为 A ~ 5，2 ~ 6，……… ，9 一 K, 一共 9 种 ,那么 黑 桃 一 种 花 
色 的 牌 型 种 类 就 为 
1 035 x 9=9 315 


4 种 花色 的 组 合 数 就 是 
9 315 x 4-37 260 
得 到 结果 概率 为 
37 260 
Tib smi sn 00007 9% 
网 上 还 有 一 种 算法 : 
1 
133 784 560 
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这 种 算法 是 有 问题 的 。 错 误 发 生 的 地 方 大 概 在 这 里 :“ 以 黑 桃 为 例 , A ~ 5,2 ~ 6,…… š 
9~ K, 一 共 9 fh, 47 张 牌 里 挑 出 两 张 ， 计算 : 
2 47x46 
P 2x] 
那么 黑 桃 的 同花顺 的 牌 型 种 数 为 





=1081 


1 081 x 9=9 729 
同 理 ， 红 桃 、 梅 花 、 方 块 的 同花顺 都 有 9 729 种 组 合 ， 共 计 38916 种 组 合 ， 得 于 
38 916 
133 784 560 
这 里 一 旦 选 好 了 5 张 牌 作为 “核心 组 合 ” 以 后 ， 其 他 牌 的 选择 其 实 不 是 自由 的 ， 因 为 
有 的 牌 配 进来 以 后 就 发 现 这 个 一 开始 就 认定 的 组 合 不 是 最 后 在 台面 上 最 大 的 牌 。 


I 结果 


=~ 0.029 1% 


3. 四 条 
四 条 有 多 少 种 呢 ， 计 算 方法 类 同 ，4 张 已 经 确定 ， 还 有 48 张 没有 发 : 
人 
3x2xl 





注意 这 里 4 张 的 组 合 有 多 少 种 一 一 13 种 ， 所 以 四 条 可 能 出 现 的 组 合 数量 为 
17 296 x 13-224 848 
除 一 下 得 到 结果 
224 848 
133 784 560 
BRE LAIADE, (EUER Eb EEKAN F8] 4EILDA BEA ERT ASAP, ERE? 
其 他 的 组 合 方式 大 家 有 兴趣 可 以 自己 慢 慢 去 算 ， 网 上 也 有 现成 算 好 的 对 照 表 。 
提示 一 下 ， 两 对 牌 这 种 情况 比较 难 算 ， 因 为 情况 比较 复杂 。 它 复杂 的 地 方 在 于 在 满足 
两 对 牌 的 情况 下 ， 还 要 将 满足 同 花 大 顺 、 同 花 顺 、 四 条 、 满 堂 红 、 同 花 、 顺 子 、 三 条 的 情 
况 全 部 剔除 才 行 。 两 对 牌 的 牌 型 为 31 433 400 种 ， 概 率 为 23.5%。 还 有 一 些 其 他 形式 的 对 
照 表 ， 就 是 在 手 里 底牌 为 已 知 固定 组 合 的 情况 下 ， 最 终 与 公共 牌 组 合成 为 各 等 牌 的 概率 。 
这 里 温馨 提醒 一 下 各 位 牌 友 ， 刚 刚 我 们 计算 的 概率 是 在 一 个 人 自己 摸 牌 的 情况 下 产生 的 概 
率 。 一 旦 是 5 个 人 、10 个 人 玩 的 时 候 就 大 不 相同 了 。 有 一 点 是 确定 的 ， 人 越 多 ， 公 共 牌 和 
其 他 玩家 一 起 组 成 的 牌 的 种 类 可 能 性 也 越 多 ,“ 罕 见 组 合 ” 在 一 局 中 出 现 的 可 能 性 也 比 一 个 
人 自己 摸 牌 要 高 很 多 ,请 一 定 注意 哦 。 


~ 0.16896 


3.3 ”小结 


排列 组 合 以 及 利用 排列 组 合计 算 的 古典 概 型 在 生产 生活 中 可 以 解决 很 多 问题 。 刚 刚 这 
些 例 子 我 们 已 经 看 到 了 不 少 用 法 和 技巧 。 
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在 这 里 有 几 个 概念 可 能 会 被 误 读 ， 我 们 需要 在 这 里 澄清 一 下 。 

最 容易 发 生 的 误解 是 ， 扔 硬币 的 时 候 ， 如 果 前 3 KEHA E”, 那 第 4 次 出 现 “ 反 ”的 
概率 就 增 大 。 

这 里 面 的 误解 我 认为 有 两 个 层面 。 

误解 1: 对 “概率 ”一 词 本 身 的 理解 有 偏差 。 

“概率 ”一 词 的 汉语 含义 是 几率 、 可 能 性 、 可 能 程度 。 我 们 通常 会 以 我 们 自己 腾 想 的 方 
式 去 猜测 某 件 事情 的 可 能 性 比较 高 或 者 比较 低 ， 这 会 导致 我 们 对 概率 大 小 理解 的 偏差 。 

在 使 用 排列 组 合 与 古典 概 型 的 方法 时 ， 有 一 个 大 原则 就 是 这 些 概率 实际 上 是 通过 统计 
计算 出 来 的 ， 请 注意 ， 由 统计 得 出 概率 是 人 们 得 到 概率 最 原始 的 方法 ， 包 括 后 面 将 要 介绍 
的 条 件 概 率 也 是 一 样 的 道理 。 也 就 是 说 ， 硬 币 扔 出 正面 和 反面 各 50% 的 概率 是 多 少 ， 这 不 
是 因为 硬币 本 身 有 两 个 面 ， 而 是 通过 多 次 扔 硬币 ， 然 后 用 得 到 正面 的 次 数 除 以 总 数 得 到 扔 
出 正面 的 概率 一 一 这 个 才 是 定义 。 而 如 果 硬 币 本 身 不 是 匀 质 的 ， 如 由 于 图 案 雕 花 构 造 或 者 
铸币 金属 本 身 的 特性 导致 正面 较 重 ， 反 面 较 轻 ， 很 有 可 能 导致 扔 出 正面 的 概率 为 60%， 反 
面 的 概率 为 40% 的 情况 (抑或 其 他 比例 )。 请 注意 ， 这 个 结论 同样 是 通过 多 次 扔 硬币 得 出 来 
的 ， 例 如 扔 1 000 次 ， 发 现 有 600 次 是 正面 ，400 次 是 反面 。 这 时 再 计算 扔 3 次 硬币 会 产生 
3 个 正面 的 概率 就 不 是 3 个 1/2 相 乘 了 ， 而 是 3 0.6 相 乘 了 。 

既然 如 此 ， 概 率 本 身 的 解释 就 是 对 于 大 量 样本 分 布 比 例 的 解释 ， 而 不 是 对 单 次 事件 的 可 
能 性 的 解释 。 我 们 说 扔 硬币 产生 正面 概率 50%， 反 面 概率 50%， 其 实 是 在 说 扔 1 000 次 硬币 ， 
理论 上 会 有 500 次 产生 正面 ，500 次 产生 反面 ; 2510 000 次 硬币 ， 理 论 上 会 有 5 000 次 产生 
正面 ，5 000 次 产生 反面 。 这 才 是 概率 本 身 的 含义 ， 而 对 于 单 次 扔 硬币 的 解释 没有 意义 。 

误解 2: 事件 之 间 的 独立 性 。 

扔 出 一 次 硬币 ， 得 到 正面 ， 下 一 次 重新 再 扔 ,那么 这 一 次 扔 硬币 和 上 一 次 扔 硬币 有 关 
系 吗 ? 学 过 概率 论 的 朋友 都 不 会 陌生 ， 答 案 是 “没有 关系 ”。 没 学 过 概率 论 的 朋友 其 实 稍 微 
想 一 想 也 能 得 出 这 个 结论 。 

这 里 不 妨 再 做 一 个 实验 ， 这 个 实验 略 显 复杂 且 无 厘 头 ， 但 是 这 个 过 程 大 家 想 想 很 快 能 
想 明 白 。 

让 100 个 人 ,每 个 人 都 手持 一 枚 同 款 匀 质 硬币 ， 让 他 们 各 自 开 始 扔 ， 一 次 、 两 次 、 三 
次 …… 任 何 一 个 人 都 是 一 直 在 扔 硬币 直到 出 现 最 近 3 次 连续 都 是 正面 的 时 候 停 下 来 。 最 后 ， 
这 100 个 人 都 会 在 那里 静 静 地 停 下 来 等 待 下 一 个 指令 ， 这 个 指令 就 是 让 他 们 同时 进行 一 次 
抛 硬币 的 动作 ， 然 后 比较 这 100 枚 硬币 正 反 面 出 现 的 比例 。 对 于 每 一 位 参与 实验 的 人 来 说 ， 
如 果 由 于 前 3 次 投掷 都 产生 正面 而 使 得 第 4 次 投掷 出 现 反面 的 概率 变 高 的 话 ， 那 么 会 在 100 
人 同时 投掷 的 实验 中 看 到 一 个 奇怪 的 现象 ， 那 就 是 出 现 反面 比 正 面 多 很 多 的 情况 。 真 的 会 
这 样 吗 ?人们 甚至 还 可 以 观察 更 为 极端 的 情况 ， 那 就 是 等 待 最 近 5 次 连续 都 是 正面 的 时 候 
停 下 来 ,结果 又 当 如 何 ? 如果 在 一 个 试验 中 直接 扔 100 枚 硬币 ,那么 产生 正面 和 反面 应 该 
都 是 50 次 左右 。 这 又 和 刚刚 的 假设 看 上 去 如 此 矛盾 。 究 竟 哪 种 说 法 是 对 的 呢 ? 统计 的 定义 
交 给 统计 来 验证 吧 。 
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第 4 章 : Clape e 


统计 与 分 布 


前 一 章 简单 复习 了 一 下 排列 组 合 ， 就 当 热 热身 吧 。 本 章 开 始 再 复习 一 下 统计 和 分 布 的 
知识 。 

统计 学 的 内 容 其 实 非 党 庞杂， 应 用 领域 也 很 广 ， 也 有 着 不 同 的 学 派 。 但 是 如 果 不 做 学 
术 研 究 而 只 是 关注 应 用 ， 我 认为 未 必需 要 进行 面面俱到 的 深入 学 习 。 

不 管 是 什么 学 科 ， 尤 其 是 工科 和 理科 中 的 各 个 学 科 ， 它 们 绝 不 会 是 人 们 单纯 觉得 好 玩 ， 
绝 不 会 是 为 了 消 遗 娱乐 而 创立 的 ， 而 是 它 的 发 展 最 终 能 够 降低 人 类 认 知 或 描述 世界 的 成 本 ， 
带 来 工作 效益 的 直接 或 间接 的 提升 。 有 了 这 个 思路 ,我 们 在 理解 很 多 现象 的 时 候 都 会 更 自 
然 ， 因 此 这 里 从 应 用 的 思路 来 人 手 。 


4.1 加 和 值 、 平 均值 和 标准 差 


上 学 是 每 个 人 几乎 都 经 历 过 的 过 程 ， 拿 来 做 例子 也 许 会 更 加 亲切 。 

假设 在 一 所 高 中 ， 有 3 个 年 级 ， 每 个 年 级 有 10 个 班 ， 每 个 班 有 40 到 60 个 学 生 不 
等 。 要 对 这 些 老师 和 学 生 进 行 管理 喊 口号 是 不 好 使 的 ， 作 为 学 校 的 教学 主任 ， 他 需要 了 解 
这 些 学 生 的 学 习 情 况 ， 知 道学 生 学 习 成 绩 的 变化 ,老师 教学 水 平 的 高 低 ， 以 及 调整 的 方式 
(图 4-1 )。 

最 早 的 考试 不 知道 是 哪 位 聪明 人 发 明 的 ， 因 为 考试 是 一 种 天 然 有 着 “数字 化 管理 ” 基 
因 的 东西 ， 天 然 就 是 一 种 指标 坏 子 。 例 如 ， 一 次 学 校 期 末 考 试 以 后 ， 所 有 的 学 生成 绩 都 汇 
总 上 来 ,假设 考试 的 科目 有 语文 、 数 学 、 英 语 3 个 学 科 ， 一 个 包含 1 000 多 个 学 生 的 四 五 千 
个 单位 的 数据 就 会 摆 在 这 位 教学 主任 的 眼前 (图 4-2 )。 
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倘若 你 现在 就 是 这 位 教学 主任 ， 需 要 你 和 校长 汇报 一 下 这 次 考试 各 班 的 情况 如 何 ， 你 


会 怎么 办 ? 





图 4-1 学 生 管 理 图 4-2 ”学 生成 绩 汇总 


把 所 有 的 学 生 的 每 一 门 课 的 成 绩 都 逐个 给 校长 读 一 遍 ? 恐怕 是 要 花费 太 多 的 时 间 ， 搞 
不 好 开始 汇报 还 没有 3 分 钟 校长 已 经 睡 着 了 。 


4.1.1 加 和 值 

这 里 插入 一 段 小 小 的 联想 ， 想 想 平时 到 超市 里 购物 最 后 在 收银 台 做 了 什么 事情 。 收 银 
员 把 每 件 货品 的 价格 加 和 ， 不 管 是 10 件 还 是 20 件 还 是 更 多 ,最 终 只 给 出 一 个 价格 的 合计 
值 。 顾 客 按照 这 个 合计 值 付 账 一 次 性 结束 整个 交易 ， 而 这 显然 是 比 对 每 件 货品 都 单独 结算 
一 次 的 时 间 成 本 低 很 多 的 。 这 里 面 用 到 统计 学 的 知识 了 吗 ? 用 到 了 ， 只 是 它 太 稀 松 平常 了 
以 至 于 人 们 几乎 没有 意识 到 而 已 。 这 种 用 一 个 加 和 值 来 e 
概括 性 地 描述 一 群 事物 的 方法 几乎 不 需要 教学 就 能 直观 uec t 7 
地 实现 早 市 上 那些 即便 没有 什么 学 历 的 菜 贩 也 不 用 非 要 Et 


找 个 数学 老师 来 系统 教学 一 下 或 者 深造 一 个 统计 学 专业 eI oe 

的 文凭 才能 开始 给 买 莱 大 妈 们 报价 和 卖 莱 吧 。 所 以 使 用 人 Re” Rs 

一 个 性 状 数值 的 加 和 值 来 对 一 群 事物 进行 描述 是 一 种 非 了 Te 
e è` Mt: 4 


常 自然 的 描述 方式 (图 4-3°),， 这 简直 太 棒 了 。 i 

这 种 例子 其 实 到 处 都 是 ， 如 平时 说 的 GDP (Gross 图 4-3 价格 加 和 
Domestic Product， 国 内 生产 总 值 ， 我 们 常常 口 口 相 传 的 国民 生产 总 值 实际 是 GNP 一 一 
Gross National Product)， 青 如 “上 个 月 我 出 差 一 共 花 了 2 000 元 ”， 这 都 是 非常 典型 的 用 总 
和 值 来 进行 概括 描述 的 例子 。 人 们 不 需要 具体 阐述 千 万 个 工厂 每 个 工厂 有 多 大 产值 , FI 
家 公司 每 家 公司 有 多 大 产值 ; 或 者 出 差 吃 某 一 顿 饭 花 了 多 少 钱 ， 坐 出 租车 某 一 次 花 了 多 少 
钱 ， 这 种 细节 的 陈述 太 繁 珊 。 这 就 是 人 们 从 加 和 值 描述 中 得 到 的 最 大 好 处 一 一 直 奔 主题 ， 





O 图 片 来 源 于 百度 图 库 
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只 关心 人 们 最 关心 的 总 和 数字 ， 忽 略 里 面 的 细节 。 通 常 把 加 和 值 的 概念 用 希腊 字母 > 来 表 
示 ， 读 作 “ 西 格 玛 ”， 后 面 还 会 经 常 碰 到 这 个 标记 。 

然后 再 回来 看 一 下 教学 主任 的 问题 。 是 不 是 也 可 以 很 自然 地 先 想 到 ， 干脆 用 一 个 加 和 
值 来 描述 ， 这 一 个 班 所 有 的 学 生 所 有 的 成 绩 加 起 来 一 共 多 少 分 。 如 果真 的 这 么 做 了 会 出 现 
什么 情况 ? 

“一 年 级 一 班 分 数 总 和 9 600 分 ， 一 年 级 二 班 分 数 总 和 13 500 分 ……” 这 一 描述 看 上 去 
是 非常 简洁 的 ， 但 是 这 种 描述 带 来 的 信息 几乎 没有 什么 价值 。 可 以 根据 这 个 数值 比较 说 一 
年 级 二 班 的 学 生 比 一 年 级 一 班 的 学 生 学 习 好 吗 ? 直观 去 看 的 话 ， 这 种 似乎 感觉 很 奇怪 ， 但 
是 怎么 个 奇怪 法 呢 ? 

事实 上 可 能 是 这 样 ， 一 年 级 一 班 有 40 名 学 生 ， 每 个 人 3 门 功 课 每 一 门 都 是 80 分 ; 一 
年 级 二 班 有 60 名 学 生 ， 每 个 人 3 门 功课 每 一 门 都 是 75 分。 需要 陈述 到 这 个 级 别 才 能 明确 
究竟 哪个 班 更 好 ， 这 显然 和 我 们 用 简洁 数值 做 描述 的 初衷 背道而驰 。 对 学 生成 绩 的 描述 如 
果 能 够 成 为 对 整个 班级 的 成 绩 概括 描述 ， 同 时 兼 有 对 每 个 个 体 的 描述 ， 套 用 现在 流行 的 一 
句 话 一 一 “ 那 真 是 极 好 的 ”。 有 这 样 一 种 数 吗 ? 有 的 ， 如 平均 值 。 


4.1.2 平均 值 

平均 值 的 计算 方法 大 家 肯定 很 熟悉 ， 我们 在 学 生 时 代 就 已 经 经 历 过 无 数 的 例子 。 上 述 
例子 就 是 以 班级 为 单位 把 每 个 人 的 每 门 课程 加 在 一 起 除 以 总 的 学 生 数量 ， 再 除 以 课程 数量 。 

“一 年 级 一 班 有 40 名 学 生 ，3 门 课程 平均 分 为 80 分 ”。 

“一 年 级 二 班 有 60 名 学 生 ，3 门 课 程 平 均 分 为 75 分 ”。 

“一 年 级 三 班 有 50 名 学 生 ，3 门 课程 平均 分 为 80 分 ”。 

从 这 里 基本 还 是 能 得 到 一 个 清晰 的 感性 认识 ， 那 就 是 一 年 级 一 班 和 一 年 级 三 班 的 总 体 
水 平 是 “一 样 的 "， 而 且 他 们 比 一 年 级 二 班 的 水 平 高 。 因 为 在 使 用 平均 值 进行 比较 时 ， 实 际 
直观 感觉 是 在 对 比 3 个 班级 中 每 一 个 学 生 个 体 。 

所 有 这 类 用 单一 的 数据 定义 来 概括 性 描述 一 些 抽象 或 复杂 数据 的 方式 方法 都 叫做 “ 指 
标 ”。 平 均 分 在 这 里 就 是 一 个 很 好 的 指标 ， 因 为 它 用 一 个 简洁 的 数据 定义 概括 了 众多 数据 的 
特性 。 平 均值 和 样本 数量 (学 生 数 ) 这 两 个 值 就 基本 可 以 描述 清楚 学 生 分 数 的 高 低 情况 了 。 
在 上 述 例 子 里 ， 平 均 分 这 种 指标 恕 怕 不 是 由 某 个 数学 家 或 者 智商 殊 绝 于 人 的 家 伙 特 意 发 明 
出 来 的 ， 而 是 在 生活 中 由 于 要 进行 对 象 数据 的 宏观 描述 而 自然 而 然 产生 的 一 种 方便 的 数值 
计算 和 描述 方法 。 

另外 ， 指 标 在 很 多 企 事 业 单 位 、 学 术 技术 领域 都 有 广泛 的 应 用 。 如 证 券 交 易 中 有 很 多 
价格 指标 一 一 用 来 描述 价格 震荡 的 剧烈 程度 、 价 格 变化 的 趋势 等 ; 环保 领域 有 PM2.5 浓度 
指标 ; 以 及 交通 警察 在 测量 司机 是 否 酒 驾 时 使 用 的 血液 酒精 浓度 一 一 BAC 指标 等 。 图 4-4 
所 示 为 家 用 多 功能 环境 测量 仪器 的 各 种 污染 指标 显示 ， 有 甲醛 、PM2.5、PM10、VOC 和 电 
人 磁 辐 射 ， 这 些 数 值 化 的 读数 都 是 指标 。 
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图 4-4 污染 指标 显示 


指标 的 使 用 有 助 于 我 们 简练 地 描述 对 象 。 再 回 到 班级 成 绩 统计 的 例子 。 

“一 年 级 一 班 有 40 名 学 生 ，3 门 课 程 平 均 分 为 80 分 ”。 

“一 年 级 二 班 有 60 名 学 生 ，3 门 课程 平均 分 为 75 分 ”。 

“一 年 级 三 班 有 50 名 学 生 ，3 门 课程 平均 分 为 80 分 ”。 

从 这 组 数据 来 看 ， 基 本 可 以 得 到 一 个 印象 ， 就 是 一 年 级 一 班 的 成 绩 “ 普 遍 ” 比 一 年 级 
二 班 “ 好 ”"， 至 少 是 从 “宏观 体现 ”上 看 比 二 班 好 ， 它 和 一 年 级 三 班 “ 一 样 好 ”。 但 是 一 年 
级 一 班 和 一 年 级 三 班 这 两 个 班 的 每 个 人 的 成 绩 都 是 一 样 的 吗 ? 至少 人 数 是 不 一 样 的 。 那 么 
也 许 还 需要 进一步 地 描述 这 平均 下 来 的 80 分 和 每 个 学 生 有 具体 的 课程 分 数 之 间 的 差异 性 有 多 
大 ， 这 就 涉及 另 一 个 描述 的 需求 一 一 标准 差 


4.1.3. ”标准 差 
我 们 先 上 公式 ,标准 差 公 式 如 下 : 


w= t, - Xy 
nia 


下 面 解释 一 下 这 个 公式 的 含义 。 | 

我 们 以 一 年 级 一 班 所 有 40 个 学 生 为 例 , 那么 3 门 考试 的 情况 下 全 班 就 有 120 个 分 数 参 
与 统计 ， 也 就 是 n=120。 把 每 个 学 生 每 门 课 的 成 绩 减 去 全 班 的 3 个 学 科 总 的 平均 分 80 分 ， 
这 样 得 到 120 个 差 值 ， 再 把 这 些 差 值 分 别 平 方 (主要 是 为 了 去 掉 负 数 ， 因 为 在 分 数 差距 里 
面 ， 不 管 是 比 这 个 平均 值 多 ， 还 是 比 这 个 平均 值 少 ， 都 被 视 为 偏差 );， 将 这 些 平方 的 结果 再 
加 和 ， 之 后 除 以 参与 统计 的 学 科 数 量 120， 最 后 开平 方 ， 这 个 数字 只 可 能 是 一 个 大 于 等 于 零 
的 数字 。 用 汉字 描述 起 来 很 曼 嗪 ， 但 是 一 旦 变 成 一 个 标准 差 的 指标 以 后 ， 由 于 是 约定 俗 成 
的 ， 所 以 只 需要 “标准 差 ” 这 3 个 字 就 能 表示 了 。 

这 个 数字 表示 的 是 什么 含义 ? 从 这 个 数字 得 到 的 过 程 其实 不 难看 出 来 。 

如 果 所 有 的 人 的 所 有 课程 成 绩 都 是 和 平均 分 一 样 ， 那 么 算出 来 的 标准 差 就 是 0， 因为 每 
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一 个 (X, 一 对 ?肯定 都 是 0* ; 反之 ， 如 果 所 有 的 人 的 课程 成 绩 与 平均 分 的 差距 都 很 大 ， 好 的 
很 好 ， 差 的 很 差 ， 那 么 结果 就 是 这 个 值 会 很 大 。 如 果 一 个 班级 成 绩 标准 差 比 男 一 个 班级 成 
绩 的 标准 差 小 ， 说 明 学 生 之 间 的 考试 成 绩 水 平 差不多 ， 标 准 差 大 则 说 明 学 生 之 间 的 考试 成 
绩 水 平 相差 比较 大 。 

需要 说 明 的 是 ， 一 般 来 说 为 了 在 教学 战术 指导 层面 让 平均 值 和 标准 差 更 有 针对 性 ， 通 
常 是 不 会 像 例 子 里 这 样 来 操作 的 。 更 多 的 是 以 一 个 班 为 单位 ， 求 班 里 某 一 个 学 科 成 绩 的 平 
均值 和 标准 差 ， 或 者 求 某 一 个 学 生 所 有 学 科 的 平均 值 和 标准 差 。 这 两 种 计算 分 别 用 来 描述 
一 个 教师 教学 的 成 果 和 某 个 学 生 的 成 绩 以 及 偏 科 的 程度 。 

例如 ,“ 一 年 级 三 班 有 50 名 学 生 ， 英 语 考试 平均 分 为 80 分 ,标准 差 为 4.25”,“ 张 三 同 
学 ， 语 文 、 数 学 、 英 语 三 门 课 的 平均 分 为 90 分 ”。 

前 者 能 够 反映 教授 这 个 班 的 英语 教师 的 教学 情况 ， 后 者 能 够 反映 张 三 这 名 学 生 的 各 学 
科学 习 情 况 一 一 当然 都 是 粗 久 的 概述 性 描述 

加 和 值 (总 和 值 )、 平 均值 、 标 准 差 ， 这 几 个 值 是 在 生产 生活 中 大 量 应 用 的 统计 学 指标 。 
不 过 在 此 需要 强调 的 是 ， 也 是 很 容易 被 人 误 读 的 地 方 。 那 就 是 ， 平 均值 、 标 准 差 是 客观 的 
计算 结果 ， 是 描述 性 的 说 明 ， 但 是 绝 非 对 比 和 评价 的 标准 。 

不 少 人 认为 ， 某 学 校 某 老师 的 学 生 的 高 考 平 均 分 比 另 一 学 校 另 一 老师 的 学 生平 均 分 要 
高 ， 这 一 定 说 明 这 个 学 校 这 个 老师 的 教学 水 平 要 高 。 这 个 因果 关系 不 一 定 是 正确 的 ， 因 为 
一 旦 在 生活 中 应 用 ， 客 观 场景 的 细节 会 让 这 种 对 比 变 得 毫 无 意义 。 虽 然 从 广大 家 长 的 视角 
去 看 ， 不 管 怎么 样 ， 只 要 有 选择 的 余地 ， 比 较 两 个 班 的 平均 成 绩 来 判断 自己 的 孩子 进入 哪 
个 班 未 来 会 更 有 利 是 有 道理 的 。 

举 个 反例 。 如 果 这 两 个 学 校 的 老师 的 生源 本 身 就 有 很 悬殊 的 差距 : 一 个 老师 的 学 生平 
均 分 都 在 80 分 左右 ， 只 能 上 一 般 的 大 学 ; 另 一 个 老师 则 有 不 少 85 分 以 上 的 学 生 ， 还 有 大 
量 60、70 分 的 “关系 户 ” 学 生 ， 如 图 4-5 所 示 。 那 么 或 许 后 者 的 班级 里 诞生 清华 北大 的 学 
生 的 可 能 性 还 会 比 前 一 个 班 更 大 也 未 可 知 . 





(a) 教师 一 的 学 生 水 平 


图 4-5 学 生 水 平 悬殊 
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(b) 教师 二 的 学 生 水 平 
图 4-5 ( 续 ) 


所 以 ,请 读者 注意 ,平均 分 、 标 准 差 只 能 做 描述 用 ， 只 是 一 种 简洁 的 描述 方法 ， 最 多 
只 能 帮助 我 们 让 数据 宏观 的 “画面 感 ” 更 饱满 。 它 们 既 不 是 对 比 的 标尺 ， 也 不 是 用 来 具体 
做 规则 制定 用 的 硬性 尺度 ， 更 不 能 用 来 孤立 地 评价 好 坏 ， 因 为 “好 坏 ” 这 种 含有 大 量 主 观 
判断 色彩 以 及 个 性 化 好 恶 的 东西 本 身 就 很 抽象 而 且 标 准 繁 多 。 


4.0 加权 均值 


平均 值 这 种 指标 有 一 个 “兄弟 "， 就 是 加 权 均 值 。 权 ( Weight) 指 的 是 权重 ， 也 就 是 指 
所 占 的 “比重 ”或 重要” 程度。 在 前 一 节 的 例子 里 ,我 们 看 到 全 班 学 生 的 平均 值 计算 方法 ， 
是 把 每 个 样本 值 (学 生成 绩 ) 直接 加 和 ， 然 后 除 以 学 生 数 再 除 以 学 科 数 量 来 得 到 全 班 每 个 人 
每 学 科 的 平均 值 。 这 里 一 视 同 仁 地 把 所 有 学 生 和 所 有 学 科 进 行 等 同 看 待 ， 没 有 丝毫 的 偏 倚 ， 
分 数 直接 相 加 直接 平均 。 然 而 这 种 方法 并 非 在 所 有 的 场景 里 都 是 最 合理 的 ， 我 们 再 来 看 一 
个 生活 中 的 小 例子 。 


4.2.1 混合物 定价 

在 超市 里 买 可 能 都 到 过 卖 出 售 糖果 零食 副食 品 的 柜台 去 ,或 者 至 少 是 看 过 那里 有 卖 糖 
的 。 有 一 类 比较 受 欢迎 的 糖 叫做 什锦 糖 ， 有 的 地 方 叫 杂 拌 糖 ， 就 是 把 几 种 不 同类 型 的 糖 混 
在 一 起 卖 (图 4-6 )， 过 年 的 时 候 通 常 卖 得 不 错 。 毕 竟 对 于 那些 不 是 追求 某 一 种 糖 品 口味 的 
人 来 说 购买 “一 种 糖 ” 就 等 于 买 了 若干 种 糖 是 很 省 事 的 一 一 至 少 不 需 要 挑选 多 次 称 重 多 次 。 
但 是 这 种 糖 如 何 定 价 呢 ? 

例如 ， 有 一 种 什锦 糖 是 4 种 单 品 糖 按照 1: 1 : 1 : 1 的 比例 组 合 而 成 的 ， 它 们 分 别 定 
价 为 : 水 果糖 15 元 一 斤 ， 奶 糖 25 元 一 斤 ， 牛 轧 糖 30 元 一 斤 ， 巧 克 力 糖 40 元 一 斤 (图 4-7 )。 
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水 果糖 : 15 元 / Fr 巧克力 : 40/ Fr 





(pe: 25/ F HS: 25 rc / 斤 
RENATE 

图 4-6 什锦 糖 图 4-7 什锦 糖 中 每 种 单 品 按 1 : 1 : 1 : 1 

的 比例 混合 ( 见 彩 插 ) 


均匀 混合 以 后 ， 可 以 认为 ， 理 想 状 态 下 ,一 位 客户 如 果 正 好 称 4 斤 糖 就 恰好 为 1 斤 水 
果糖 ，! 斤 奶 糖 ，1 斤 牛 轧 糖 和 1 斤 巧 克 力 糖 。 那 这 4 斤 糖 一 共 应 该 是 多 少 钱 呢 ? 15 元 +25 
元 +30 元 +40 元 =110 元 ， 也 就 是 平均 一 斤 为 27.5 元 。 那 么 这 种 糖 定价 就 应 该 为 27.5 元 才 
为 合理 。 因 为 也 确实 是 这 样 ， 顾 客 购买 的 一 斤 什锦 糖 里 面 应 该 有 水 果糖 、 奶 糖 、 牛 轧 糖 、 
巧克力 糖 各 0.25 Jr, ifi 0.25 斤 的 4 种 糖 价 格 分 别 为 3.75 76, 6.25 76, 7.5 元 ，10 元 ， 加 和 
仍然 是 27.5 元 一 一 两 种 算法 是 一 样 的 。 

如 果 这 几 种 糖 的 混合 比例 为 1 : 2 : 
3 :4 (图 4-8)， 那 么 也 比较 容易 得 出 ， 
在 混合 均匀 的 情况 下 ，10 斤 糖 里 有 1 JT 
水 果糖 ，2 斤 奶 糖 ,3 斤 牛 轧 糖 和 4 斤 
巧克力 糖 。15 元 x1+25 元 x 2430 7C 











x3+40 元 x4=315 元 ， 也 就 是 平均 31.5 "a 
元 才 为 合理 。 这 其 实 就 是 一 种 加 权 平 均 g 





的 算法 了 ， 因 为 每 种 糖 的 价格 在 什锦 糖 
的 均 价 上 体现 出 来 的 是 不 同 的 比重 。 如 
果 不 按照 这 种 方法 定 ， 还 是 按照 非 加 权 
平均 的 方式 去 算 会 怎么 样 呢 ? 按照 前 面 图 4-8 ”什锦 糖 中 每 种 单 品 按 1 : 2 : 3 : 4 的 比例 混合 
的 例子 那 就 是 27.5 元 一 斤 ， 而 10 斤 的 什锦 糖 为 275 元 ， 比 应 售 价 低 40 元 ， 显 然 是 亏本 的 

这 种 由 于 混合 比例 所 产生 的 权重 不 同 ， 进 而 使 用 加 权 平 均 来 进行 计算 的 思路 还 有 很 多 。 
如 某 些 混合 液体 的 成 本 估算 ， 要 把 每 种 液体 的 成 本 和 份 数 考 虑 在 内 ， 而 不 能 直接 用 液体 单 
价 加 和 了 直接 平均 。 尤 其 是 牛奶 、 豆 奖 、 和 白酒 这 些 通过 原 浆 和 水 混合 勾兑 出 来 的 液体 ， 在 


牛 轧 糖 : 25 元 / 斤 巧克力 : 40/ F 
1:2:3:4 
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评估 成 本 的 时 候 必须 是 用 比例 来 计算 。 如 以 重量 1 : 4 的 原 奖 和 水 的 比例 来 勾兑 白酒 ， 勾兑 
完 的 白酒 成 本 怎么 计算 ? 
1 kg 白酒 成 本 = (1kg 白酒 原 浆 成 本 X1+1 kg 水 成 本 X4) + (1+4) 
而 绝对 不 会 是 
(1kg 白酒 原 浆 成 本 +1 kg KRÆ) +2 


4.2.2 ”决策 权衡 

除了 计算 混合 物 的 定价 ， 还 有 很 多 场合 都 会 用 到 加 权 平 均 的 概念 。 

在 一 些 决策 的 场合 我 们 会 用 到 加 权 均 值 的 概念 。 例 如 ， 在 股东 大 会 上 投票 决议 是 否 通 
过 某 一 决定 的 情况 下 ， 以 所 持 股 作 为 投票 单位 ， 那 么 这 种 情况 显然 大 股东 一 一 持 有 比 一 般 
股东 多 很 多 股票 的 股东 对 决策 意见 的 左右 能 力 就 要 强 很 多 。 控 股 的 大 股东 拥有 超过 50% 的 
股份 ， 这 种 情况 显然 是 一 家 说 了 算 (图 4-9 ) 。 这 是 一 种 典型 的 加 权 均 值 的 概念 ， 权 重 就 是 
股份 比例 。 











同意 给 我 加 互 资 的 举 季 ... 
好 ,一半 以 上 通过 ... 


51% Pd PET 








图 4-9 股东 大 会 上 的 投票 ( 见 彩 插 ) 


再 如 ， 一 些 重大 的 国家 重点 建设 项 目 要 进行 广泛 的 意见 听取 和 决策 投票 。 这 种 时 候 的 
投票 往往 也 是 加 权 性 质 的 ， 形 式 上 可 能 略 有 不 同 但 是 实质 没有 区 别 。 

举例 来 说 ， 决 定 某 地 区 水 电站 建设 最 后 方案 是 否 通过 ， 假 设 项 目 组 每 个 参与 决策 的 人 
员 都 有 打分 的 权利 ， 百 分 制 ， 规 则 如 下 。 

(1) 100 分 为 完全 同意 ，0 分 为 不 同意 ，50 分 为 完全 中 立 。 

(2) 只 有 全 部 人 打分 超过 75 分 为 通过 (立刻 按 方案 执行 )。 

( 3) 26 — 74 分 为 再 修改 (意见 正 反 两 派 分 歧 较 大 ， 需 要 修改 )。 
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(4) 0 一 25 分 为 否决 ( 挂 起 或 无 限期 延 开 )。 

这 种 情况 下 ， 通 常 是 不 会 把 每 个 人 的 打分 直接 加 和 然后 求 平 均值 的 ， 取 而 代 之 的 或 许 
会 是 以 下 方案 。 

与 会 的 两 院 院士 的 意见 分 数 有 可 能 是 不 动 的 ， 也 就 是 权 值 为 1。 

与 会 的 当地 主要 领导 权 值 为 0.8。 

与 会 的 当地 能 源 口 的 领导 权 值 为 0.6……… 

最 后 用 各 自打 的 分 数 乘 以 这 个 权重 ， 自 然 分 数 会 在 一 定 程度 上 向 着 权 值 高 的 打分 方 倾 
斜 (图 4-10 )。 

总 之 ， 在 决策 中 做 加 权 平 均 的 目的 是 为 了 让 整个 决策 既 融合 众多 参与 方 、 利 益 方 的 意 
见 ， 同 时 也 尽量 使 它 向 着 更 权威 、 更 理性 、 更 科学 的 方面 倾斜 ， 这 是 它 的 核心 指导 思想 。 
这 里 只 是 泛泛 地 用 这 样 一 个 场景 做 说 明 ， 实 际 操作 起 来 会 更 加 复杂 、 严 谨 与 合理 。 加 权 平 
均 在 决策 中 的 用 法 是 比较 常见 的 ， 在 经 济 管理 学 领域 的 “德尔 菲 法 则 ”( Delphi Method) 中 
加 权 平 均 是 一 个 重要 的 思想 。 

X X 项 目 建设 方案 投票 





J 


总 经 理 项 目 主要 领导 财务 方面 领导 
图 4-10 投票 中 的 权 值 分 配 


据 称 德尔 菲 法 则 是 在 20 世纪 40 年 代 由 赫 尔 默 (Helmer) MR (Gordon) 首创 。1946 
年 ， 美国 兰 德 公司 为 避免 集体 讨论 存在 的 届 从 于 权威 或 盲目 服从 多 数 的 缺陷 ， 首 次 用 这 种 
方法 进行 定性 预测 ， 后 来 该 方法 被 迅速 广泛 采用 。20 世纪 中 期 ， 当 美国 政府 执意 发 动 朝鲜 
战争 时 ， 兰 德 公 司 又 提交 了 一 份 预测 报告 ， 预 告 这 场 战争 必 败 。 政 府 完 全 没有 采纳 ， 结 果 
几 年 后 一 败 涂 地 。 从 此 以 后 ， 德 尔 非法 得 到 广泛 认可 。 

这 些 在 经 济 学 、 管 理学 等 领域 使 用 的 加 权 均 值 的 应 用 都 是 其 推广 和 引申 ， 都 是 在 决策 
中 广泛 应 用 的 场景 ， 大 家 有 兴趣 还 可 以 自己 去 发 现 更 多 的 例子 。 


43 众 数 、 中 位 数 


不 只 是 平均 值 、 标 准 差 这 样 的 数值 能 够 用 来 对 一 群 对 象 进 行 描述 ， 众 数 和 中 位 数 也 有 
相关 的 作用 。 
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4.3.4 众 数 

看 这 样 一 个 例子 ， 一 个 小 区 的 理发 师 ， 在 对 当天 所 有 前 来 理发 的 人 做 了 年 龄 登记 后 ， 得 
Bx EE —4- 4p i Pla "15. 20, 22. 22, 23.35.50, 727", FSR. 其 下， 2238 
是 众 数 。 众 数 反映 的 是 一 个 多 数 的 概念 ， 即 一 个 数字 比 其 他 的 数字 出 现 得 多 ， 或 者 更 普遍 。 

再 如 ， 我 的 同事 娟 娟 也 为 我 贡献 了 两 个 例子 : 其 一 ， 她 每 个 月 都 要 读 几 本 书 ， 去 年 一 
年 每 个 月 读书 的 数量 分 别 为 “2、2、3、2、3、2、1、1、1、0、1、6”， 这 里 面 有 两 个 众 数 一 一 
1 和 2， 都 是 出 现 最 多 的 ， 均 为 4 次 ， 而 其 他 数值 出 现 的 次 数 比 4 次 少 ， 这 说 明 普遍 每 个 月 

会 读 1 本 书 或 者 2 本 书 ; 其 二 ， 她 每 周 要 看 一 部 电影 ， 两 个 月 统计 下 来 每 周 看 的 电影 类 型 
如 下 “文艺 、 警 菲 、 喜 剧 、 人 惊悚 、 惊 悚 、 喜 剧 、 科 幻 、 喜 剧 ”。 其 中 ,“ 喜 剧 ” 是 众 数 ， 出 
38 3 1X (图 4-11). 





(EE. RR TARK 
好 啊 ， 我 超级 爱 (ERIZE) HEER, 
看 固 星 驰 榴 喜剧 ……. x NM 







图 4-11 看 电影 


首先 ， 我 们 可 以 感性 地 理解 众 数 就 是 在 样本 对 象 中 出 现 最 多 的 那个 数字 。 但 是 在 最 后 
的 例子 里 我 们 也 看 到 ， 虽 然 叫 做 “ 众 数 "， 可 是 不 一 定 是 数字 ， 也 有 可 能 是 别 的 数据 类 型 ， 
例子 里 给 的 是 一 个 电影 类 型 的 文字 枚 举 值 。 当 然 ， 如 果 在 样本 对 象 中 没有 任何 一 个 数值 比 
其 他 对 象 多 (如 所 有 的 数值 都 只 出 现 一 次 , 或 者 都 出 现 两 次 …… )， 这 种 情况 下 是 不 存在 众 
数 的 ， 也 就 是 说 没有 一 个 数字 比 其 他 的 数字 出 现 得 更 多 。 

众 数 在 我 们 日 常生 活 中 应 用 的 例子 也 是 有 的 ， 如 娟 娟 每 周 都 要 看 电影 ， 而 如 果 喜 剧 电 
影 是 众 数 这 个 信息 被 她 的 崇拜 者 知道 了 ， 那 买 两 张 喜剧 电影 票 请 她 看 电影 的 情况 下 会 比 买 
两 张 战争 题材 或 者 其 他 故事 片 电影 更 有 成 功 的 把 握 。 这 种 众 数 的 应 用 场景 就 是 对 人 偏好 特 
点 的 描述 。 

对 于 做 数据 库 开发 的 人 来 说 ,平时 在 做 


ww ai bbt. com [1 EH B D DO. UU 


第 4 章 ”统计 与 分 布 ws* 37 


SELECT COUNT(*),XXX FROM TABLE GROUP BY XXX; 


进行 这 种 操作 时 也 是 在 尝试 求 众 数 ， 只 是 可 能 很 多 时 候 的 结果 中 有 可 能 得 不 到 众 数 
而 已 。 


4.3.2 ”中 位 数 

中 位 数 ， 顾 名 思 义 ， 就 是 位 于 中 间 位 置 的 数字 。 

举 个 例子 ， 一 组 新 毕业 的 大 学 生 参 加 新 员工 人 职 体 检 ， 身 高 测量 样本 如 下 (单位 为 厘 
米 )， 从 小 到 大 排序 “168、172、175、175、177、185、205”， 一 共 7 个 数字 ， 中 位 数 是 
175 一 一 从 高 到 低 数 也 是 第 4 个 ， 从 低 到 高 数 也 是 第 4 个 。 如 果 是 8 个 数字 ,“168、172、 
175、175、177、177、185、205”、 那 么 中 位 数 是 176， 即 177+175/2。 找 到 中 位 数 就 是 这 
么 简单 。 

在 这 个 例子 里 面 可 以 发 现 一 个 特性 ， 就 是 有 一 个 比 一 般 人 高 很 多 的 新 员工 一 一 身高 205 
厘米 的 这 位 ， 这 样 7 个 人 平均 值 是 179.57， 比 中 位 数 175 明显 大 一 些 。 如 果 去 掉 205 这 个 
样本 再 求 一 次 平均 值 ， 平 均值 为 175.33， 中 位 数 是 175。 用 中 位 数 来 描述 样本 的 分 布 ， 在 
一 定 程度 上 可 以 消除 个 别 极端 值 对 整个 样本 平均 值 的 影响 。 

我 们 平时 在 生活 中 用 平均 值 来 描述 样本 的 情况 比较 多 ， 而 较 少 用 众 数 和 中 位 数 ， 主 要 
是 因为 平时 生活 中 的 场景 中 多 为 正 态 分 布 ， 所 以 平均 值 、 中 位 数 、 众 数 非常 接近 ， 那 么 只 
用 平均 值 最 多 加 上 标准 差 来 表示 即 能 够 满足 一 般 性 的 描述 需求 。 至 于 正 态 分 布 是 什么 


文 将 会 介绍 。 








4.4 欧 氏 距离 


在 刚刚 讲述 标准 差 的 例子 里 其 实 我 们 还 用 到 一 个 概念 ， 就 是 欧 氏 距离 (Euclidean 
Distance)， 只 是 当时 没有 提出 这 个 概念 。 回 想 一 下 计算 标准 差 的 过 程 ,“ 把 每 个 学 生 每 门 课 
的 成 绩 减 到 平均 分 ， 再 把 这 些 差 值 分 别 平方 ， 将 这 些 平 方 的 结果 再 加 和 ， 之 后 除 以 学 生 数 
hi, reci 

注意 中 间 这 个 过 程 :“ 每 门 课程 的 成 绩 减 去 平均 分 ， 再 把 差 值 平方 ”， 这 其 实 就 是 在 求 
“ 欧 氏 距离 ” ioni. 

所 谓 欧 氏 距离 中 的 “ 欧 ” 指 的 是 被 称 作 几何 之 父 的 古 和 希腊 数学 家 欧 几 里 得 。 欧 氏 距 离 
是 在 其 巨著 《几何 原本 》 中 提 到 的 一 个 非常 重要 的 概念 。 欧 氏 距 离 的 定义 大 概 是 这 样 的 : 
在 一 个 入 维度 的 空间 里 ， 求 两 个 点 的 距离 ， 这 个 距离 肯定 是 一 个 大 于 等 于 0 的 数字 (也 就 
是 说 没有 负 距 离 ， 最 小 也 就 是 两 个 点 重合 的 零 距 离 )， 那么 这 个 距离 需要 用 两 个 点 在 各 自 维 
度 上 的 坐标 相 减 ， 平 方 后 加 和 再 开平 方 。 

欧 氏 距离 使 用 的 范围 实在 是 太 广泛 了 ， 我 们 几乎 每 天 都 在 使 用 。 

一 维 的 应 用 就 相当 多 ， 如 在 地 图 上 有 一 条 笔直 的 东西 向 或 者 南北 向 的 路 ,在 上 面 有 两 
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个 点 ， 怎 么 量 取 它 们 在 地 图 上 的 距离 ? 数 轴 标 识 如 图 4-12 所 示 ， 可 以 用 尺子 的 刻度 贯穿 两 
个 点 ， 大 值 减 小 值 就 能 直接 得 出 结果 ， 最 多 再 乘 以 一 个 比例 尺 就 能 得 到 实际 的 大 小 。 或 者 
用 其 中 一 个 点 的 读数 减 去 另外 一 个 点 的 读数 ， 不 管 结果 正 负 ， 将 它 平方 后 再 开 方 ， 还 是 一 
个 非 负 数 的 值 ， 这 两 种 办 法 本 质 上 没有 什么 区 别 。 地 图 明明 是 一 个 二 维 平面 的 概念 ， 为 什 
么 非 要 说 是 一 维 的 呢 ? 只 是 因为 量 取 的 手段 和 一 维 一 样 ， 只 参考 一 个 维度 的 读数 就 可 以 了 。 


-5 =4 —3 2 =1 0 1 2 3 4 $ 
图 4-12 欧 氏 距离 一 维 的 应 用 
二 维 的 应 用 也 是 很 多 的 ， 其 中 最 典型 的 莫 过 于 人 们 熟知 的 “ 勾 股 定理 ”。 公 式 如 下 : 
c-2Na +b 
即 


cz, 73, +O y) 

在 一 个 直角 三 角形 里 ， 斜 边 长 度 等 于 两 个 直角 边 平方 之 和 再 开 方 。 这 其 实 就 是 求 斜 边 两 
个 端点 的 欧 氏 距离 ， 别 忘 了 这 里 有 一 个 隐 含 条 件 ， 就 是 斜 边 距离 是 不 能 用 尺子 直接 去 量 的 ， 
只 能 用 两 个 已 知 的 直角 边 的 长 度 做 条 件 。 至 于 
斜 边 长 度 等 于 两 个 直角 边 之 和 的 定理 在 不 同 的 
阶段 用 三 角 函 数 作 为 工具 证 明 过 ， 用 面积 作为 
工具 证 明 过 ， 用 相似 三 角形 的 方法 证 明 过 ， 方 
法 实在 是 太 多 了 ， 在 百度 网 页 搜索 中 我 们 至 少 
可 以 找到 16 种 完全 不 同 而 且 都 是 正确 的 方法 。 
图 4-13 所 示 为 一 种 二 维 空间 中 的 向 量 计算 方式 
示意 图 ， 在 知道 向 量 分 别 在 x 轴 和 y 轴 的 投影 
之 后 就 能 用 勾 股 定理 求 出 欧 氏 距离 。 

推广 到 三 维 的 应 用 ， 还 是 可 以 使 用 勾 股 定 
理 的 思路 进行 计算 。 每 个 点 都 向 3 个 平面 各 做 
一 条 垂 线段 ， 可 以 看 出 ， 两 个 点 的 距离 其 实 就 
是 一 个 长 方 体 的 对 角 线 长 度 。 最 后 得 到 距离 为 图 4-13 二 维 空间 中 的 向 量 计算 
3 个 维度 的 坐标 差 值 分 别 平方 加 和 再 开平 方 : 


d —4Q, -= *0 -yy *(z -3 
这 只 是 在 两 个 平面 空间 中 用 了 两 次 勾 股 定理 而 已 。 


例如 ,在 忽略 地 球 自身 弧度 的 情况 下 ， 求 两 个 距离 较 近 的 不 同 高 度 的 楼 宇 顶部 距离 ， 
完全 可 以 使 用 这 种 欧 氏 距离 的 定义 直接 求解 。 如 图 4-14 所 示 ， 在 三 维 空间 中 ， 实 际 需 要 使 
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用 两 次 二 维 空间 上 的 勾 股 定理 就 能 计算 出 三 维 空间 中 的 两 点 之 间 的 欧 氏 距离 。 





Ze a0 ds CO -3 GN 





c€————— 0€ 


图 4-14 三 维 空间 中 的 欧 氏 距离 应 用 
根据 上 述 一 维 、 二 维 、 三 维 的 欧 氏 距离 计算 方法 : 


d = V(x 一 六 了 

d= J- + 3,» 

d= (x, -xY Qi - taz 
可 以 推断 四 维 、 五 维 一 直到 N 维 空间 上 的 欧 氏 距离 的 计算 公式 ， 一 定 是 N 个 维度 的 “读数 ” 
差 的 平方 再 开 方 。 

欧 氏 上 距离 除了 刚刚 举 的 例子 ， 在 后 面 数据 挖掘 部 分 会 有 很 多 应 用 场景 。 它 主要 用 来 描 

述 两 个 多 维 点 之 间 的 “距离 *， 遗 憾 的 是 ， 三 维 以 下 的 点 和 点 的 距离 通过 刚刚 的 讲解 很 容易 
出 现 画 面 感 ， 四 维和 四 维 以 上 的 距离 就 只 能 赁 想象 了 ， 只 是 在 计算 中 确实 存在 且 有 对 应 的 
含义 解释 。 这 种 解释 通常 也 用 来 直接 判断 两 个 点 在 多 维 关系 上 谁 与 谁 更 “ 近 ”， 虽 然 超 过 三 
维 的 情况 下 这 个 “ 近 ” 已 经 没有 办 法 用 手边 的 工具 量 出 来 。 例 如 ， 在 一 个 五 维 空间 里 ，4 点 
和 8B 点 的 距离 为 6，4 点 和 C 点 的 距离 为 10， 那 么 就 可 以 认为 8 点 到 4 点 的 距离 比 C 点 到 
A 点 的 距离 更 近 ， 这 样 就 足够 了 。 











4.5 曼哈顿 距离 


介绍 了 欧 氏 距离 ， 再 来 介绍 一 下 曼哈顿 距离 (Manhattan Distance), 

欧 氏 距离 是 人 们 在 解析 几何 里 最 常用 的 一 种 计算 方法 , 但 是 计算 起 来 比较 复杂 ， 要 
平方 加 和 ， 再 开 方 ， 而 人 们 在 空间 几何 中 度量 距离 很 多 场合 其 实 是 可 以 做 一 些 简 化 的 。 
曼哈顿 距离 就 是 由 19 世纪 著名 的 德国 犹太 人 数学 家 一 一 赫 尔 曼 . 闵可夫 斯 基 发 明 的 (图 
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4-15 ) 。 

赫 尔 曼 . 闵可夫 斯 基 在 少年 时 期 就 在 数学 方面 表现 出 极 
高 的 天 分 ， 他 是 后 来 四 维 时 空 理 论 的 创立 者 ， 也 曾经 是 著名 
物理 学 家 爱 因 斯 坦 的 老师 。 

曼哈顿 距离 也 叫 出 租车 距离 ， 用 来 标明 两 个 点 在 标准 坐 
标 系 上 的 绝对 轴 距 总 和 。 简 单 来 说 ， 对 比 一 下 欧 氏 距离 。 

欧 氏 距离 里 的 距离 计算 : 


c= (x, —-X y is (y, =a y 





曼哈顿 距离 中 的 距离 计算 : 

cxx +] 图 4-15 KE -PRAE 

曼哈顿 距离 中 的 距离 计算 公式 比 欧 氏 距离 的 计算 公式 看 起 来 简洁 很 多 ， 只 需要 把 两 个 
点 坐标 的 x 坐标 相 减 取 绝对 值 ， y 坐标 相 减 取 绝 对 值 ， 再 加 和 。 

从 公式 定义 上 看 ， 曼 哈 顿 距离 一 定 是 一 个 非 负 数 ， 距 离 最 小 的 情况 就 是 两 个 点 重合 ， 
距离 为 0， 这 一 点 和 欧 氏 距离 一 样 。 曼 哈 顿 距离 和 欧 氏 距 离 的 意义 相近 ， 也 是 为 了 描述 两 个 
点 之 间 的 距离 ， 不 同 的 是 曼哈顿 距离 只 需要 做 加 减法 ， 这 使 得 计算 机 在 大 量 的 计算 过 程 中 
代价 更 低 ， 而 且 会 消除 在 开平 方 过 程 中 取 近 似 值 而 带 来 的 误差 。 不 仅 如 此 ， 曼 哈 顿 距离 在 
人 脱离 计算 机 做 计算 的 时 候 也 会 很 方便 。 举 例如 下 。 | 

在 国际 象棋 棋盘 (I 4-16). 上 ， 有 这 种 横 平 竖 直 的 格 
子 ， 描 述 格子 和 格子 之 间 的 距离 可 以 直接 用 曼哈顿 距离 。 如 
Al 格子 到 C4 格子 的 曼哈顿 距离 计算 如 下 : 

c23-1|«|4-1]- 5 

两 个 格子 之 间 的 曼哈顿 距离 为 5。 

之 所 以 曼哈顿 距离 又 被 称 为 出 租车 距离 是 因为 在 像 纽 约 
曼哈顿 区 这 样 的 地 区 有 很 多 由 横 平 竖 直 的 街道 所 切 成 的 街区 
(Block)， 出 租车 司机 计算 从 一 个 位 置 到 另 一 个 位 置 的 距离 ， i 
通常 直接 用 街区 的 两 个 坐标 分 别 相 减 ， 再 相 加 ， 这 个 结果 就 Ber A 
是 他 即将 开车 通过 的 街区 数量 ， 而 完全 没有 必要 用 欧 氏 距离 来 求解 一 算 起 来 超级 麻烦 还 
没有 意义 ， 毕 竟 谁 也 没 办 法 从 欧 氏 距离 的 直线 上 飞 过 去 。 如 图 4-178 所 示 ， 假 设 一 辆 出 租 
车 要 从 上 面 的 圆圈 位 置 走 到 下 面 的 圆圈 位 置 ， 无 论 是 左边 的 线路 ， 还 是 右边 的 线路 ， 都 要 
经 过 11 个 街区 ， 而 这 个 11 就 是 曼哈顿 距离 。 

从 曼哈顿 距离 的 定义 就 能 看 出 ， 曼 哈 顿 距离 的 创立 ， 与 其 说 有 很 大 的 学 术 意 义 不 如 说 








O 图 片 来 源 于 百度 网 库 
O 图 片 来 源 于 和 谷歌 地 图 ,曼哈顿 街区 。 
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更 多 的 是 应 用 意义 。 这 也 是 本 书 一 直 想 说 的 一 点 ， 数 学 就 在 我 们 身边 ， 它 是 我 们 的 工具 ， 
能 帮 我 们 解决 问题 而 不 是 带 来 腑 烦 。 











图 4-17 曼哈顿 距离 的 应 用 


上 面 的 公式 只 给 了 二 维 空间 上 的 曼哈顿 距离 公式 ， 三 维 、 四 维 或 者 更 多 维度 的 计算 原 


4.6 同比 和 环比 


在 看 一 些 公司 的 财务 报告 或 者 看 新 闻 的 时 候 ， 常 常会 听 到 “今年 7 月 销售 额 1 000 万 
元 ,同比 去 年 增长 100%, 环比 增长 25%” 诸 如 此 类 的 说 法 。 

何 为 同比 ? 就 是 “与 相 邻 时 段 的 同一 时 期 相 比 ”的 意思 ,在 这 个 例子 里 ， 今 年 7 月 同 
比 增长 10% 的 意思 就 是 今年 7 月 的 销售 额 和 去 年 7 月 的 销售 额 相 比 增长 10%， 这 样 推断 来 
看 ， 去 年 7 月 销售 额 应 该 是 500 万 元 (图 4-18 (a))。 








何 为 环比 ? 就 是 直接 和 上 一 个 报告 期 进行 比较 ， 在 这 zt En 
个 例子 里 ， 环 比 增长 25% 的 意思 就 是 今年 7 A Wgm 9067 — — Pes 
今年 6 月 的 销售 额 相 比 增长 25%， 这 样 推断 来 看 ， 今 年 6 
月 的 销售 额 为 800 万 元 (图 4-18 (b) )。 = (a) 同比 (b) 环比 


但 是 ， 在 真实 应 用 的 时 候 通常 是 不 会 这 样 来 反 推 前 值 ”图 4-18 同比 与 环比 ( 见 彩 插 ) 
的 ， 而 是 先 得 到 前 值 和 当期 值 然 后 做 比较 得 出 同比 和 环比 。 

这 种 比 对 其 实 也 是 天 然 形成 的 ， 要 知道 在 公司 或 组 织 运营 中 通常 喜欢 用 周期 性 单位 来 
做 计划 ， 不 管 是 预算 计划 ， 还 是 工作 任务 分 派 计 划 ， 用 周 、 月 、 季 度 、 年 都 是 可 以 的 ， 选 
取 的 周期 大 小 完全 取决 于 工作 场景 中 这 个 周期 是 不 是 容易 把 握 和 调整 。 在 一 个 周期 结束 的 
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时 候 ， 通 常 要 对 这 个 周期 的 工作 内 容 总 结 ， 这 种 总 结 的 目的 就 是 对 比 和 经 验 归纳 ， 手 
段 通常 就 用 同比 和 环比 。 

同比 、 环 比 的 周期 在 选用 时 要 适当 ， 太 小 不 方便 ， 太 大 同样 不 方便 。 我 们 可 以 把 同比 
和 环比 看 成 体检 ， 就 好 比 每 个 人 做 体检 ， 一 年 一 次 ， 一 年 两 次 即 可 。 再 有 钱 也 没有 必要 一 
天 体检 一 次 ， 而 十 年 八 年 才 体 检 一 次 恐怕 对 疾病 预防 起 不 到 什么 作用 。 

举 个 生产 中 常见 的 例子 ， 例 如 ， 互 联网 公司 用 周 和 月 甚至 是 天 做 短期 的 运营 时 间 单 位 ， 
因为 可 以 在 比较 短 的 时 间 内 看 到 反馈 和 周期 性 变化 的 规律 特点 ， 用 年 做 单位 则 显得 有 些 笨 
重 ， 反 馈 慢 。 互 联网 公司 常用 的 同比 环比 的 对 象 有 什么 呢 ? 日 /月 活跃 用 户 数 ， 简 称 “ 日 
活 ” 和 “月 活 "， 这 是 经 常用 来 做 同比 和 环比 的 对 象 ; 还 有 日 PV 数 ( Page Views)， 也 就 
是 俗称 的 点 击 量 ， 一 个 用 户 发 生 一 次 网 页 访问 就 算 一 个 PV， 很 多 互联 网 公司 在 做 运营 时 
把 PV 数 当成 一 个 网 站 活跃 程度 重要 的 指标 。 图 4-19 所 示 为 新 浪 网 (www.sina.com.cn) 的 
Alexa 网 站 排名 ,其 中 “日 均 PV[ 周平 均 ]” 的 概念 就 是 统计 7 天 的 PV 数 然后 除 以 7， 大 
约 5.64 亿 次 一 一 真是 不 得 了 。 
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图 4-19 新 浪 网 的 Alexa 网 站 排名 
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如 果 把 国家 也 看 成 一 个 公司 来 运营 ， 它 的 大 政 方针 通常 用 年 ， 甚 至 是 5 年 来 做 运营 时 
间 单 位 ， 如 果 用 日 和 周 则 会 使 得 计划 过 于 细碎 ， 对 于 细节 也 非常 难以 做 到 有 效 的 反馈 和 
调整 。 

同比 和 环比 在 我 们 平时 制作 报表 的 时 候 会 经 常用 到 ， 对 比 的 对 象 也 很 丰富 ， 可 以 对 比 
某 些 项 目的 加 和 和 值 ， 也 可 以 对 比 平均 值 ， 只 要 是 同一 对 象 同一 单位 的 值 对 比 就 是 有 意义 的 。 
另外 ， 同 比 和 环比 也 是 在 平时 公司 报表 中 最 常用 的 比较 手段 之 一 ， 几 乎 所 有 的 营业 指标 都 
可 以 使 用 同比 和 环比 进行 自我 比较 ， 很 直观 也 很 方便 。 

而 在 所 有 的 营业 指标 里 最 常用 的 周期 指标 通常 是 “月 同比 ”和 “月 环比 "， 除 了 周期 大 
小 较为 合适 以 外 ， 月 环比 能 够 与 最 近 一 个 经 营 周 期 做 对 比 ， 便 于 快速 反应 ; 而 月 同比 是 和 
去 年 的 同期 月 相 比 ， 这 种 比较 会 过 滤 掉 一 些 周期 性 的 波动 的 影响 因素 。 

举 个 例子 ， 某 网 吧 2014 4E 9 月 份 在 其 网 吧 装 机 规模 一 直 没 有 变化 的 情况 下 上 座 率 环比 
下 降 25%， 同 比 上 升 10%， 这 说 明 它 经 营 情况 下 滑 了 吗 ? 不 一 定 ， 要 知道 9 月份 和 8 月 份 
有 一 个 很 大 的 区 别 是 中 小 学 生 暑假 假期 正好 在 8 月 底 结束 ， 很 多 孩子 没有 假期 那么 自由 能 
够 去 上 网 了 ， 网 吧 的 上 座 率 由 于 这 种 周期 性 波动 产生 的 环比 下 降 是 一 种 自然 且 正 常 的 波动 。 
而 同比 上 升 10% 就 说 明 今 年 9 月 份 比 去 年 9 月 份 上 座 率 还 是 提高 了 10%， 因 此 不 能 断定 网 
吧 的 经 营 有 下 滑 。 

这 样 的 季节 或 人 为 性 规律 的 周期 性 影响 在 生产 生活 中 有 很 多 ， 尤 其 是 跟 行 业 结 合 的 时 
候 会 有 很 多 细节 值得 关注 ， 请 各 位 读者 特别 注意 这 一 点 ， 切 莫 生 搬 硬 套 。 





4.7 抽样 


抽样 ( Sampling) 是 一 种 非常 好 的 了 解 大 量 样本 空间 分 布 情况 的 方法 ， 样 本 越 大 则 抽样 
带 来 的 成 本 减少 的 收益 就 越 明显 。 

例如 ， 一 个 大 型 食品 加 工厂 一 天 要 出 货 100 万 包 方 便 面 。 为 了 检验 方便 面 的 质量 或 者 
说 合格 率 ， 在 出 厂 的 时 候 每 一 包 都 打开 检验 一 下 是 很 不 现实 的 。 就 算 时 间 允 许 ， 所 有 的 方 
便 面 都 开 包 测 重金 属 、 菌 群 数量 、 酸 价 …… 即 便 这 种 方法 检测 出 来 的 结果 能 够 覆盖 所 有 的 
出 三 方便 面 ， 也 确实 是 一 种 极为 精确 的 方法 ， 然 而 这 些 方便 面 在 被 检验 后 也 只 能 扔 进 垃圾 
堆 了 ， 完 全 不 具备 可 操作 性 。 图 4-202 所 示 为 用 已 经 粉末 化 的 方便 面 做 酸 价 检测 ， 看 上 去 
搞 一 次 也 蛮 复 杂 的 。 

而 在 实际 生产 中 通常 怎么 做 呢 ? 

在 方便 面 出 厂 的 时 候 一 般 是 这 样 做 的 一 一 其 实 别 的 很 多 产品 操作 方法 也 相近 ， 用 类 似 
扔 角子 的 方法 来 选择 取 哪 几 箱 ， 哪 几 包 方便 面 ， 取 出 一 定 的 比例 来 做 随机 抽 测 ， 这 在 我 国 
的 产品 质量 检验 国家 标准 中 是 有 明文 规定 的 。GB 10111 标准 就 规定 了 利用 随机 数 角 子 进行 


O 图 片 来 白 百 度 图 库 
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随机 抽样 的 方法 。 这 种 骨 子 不 是 我 们 平时 麻将 用 的 6 mim. mie 20mm. rA 
o~ 9 的 读数 ， 每 个 读数 占 两 面 ， 如 图 4-219 ras. 





图 4-20 方便 面 的 酸 价 测试 


倘若 100 万 包 里 只 挑 出 100 包 来 做 测试 ， 如 果 发 现 有 1 
包 有 质量 问题 ， 按 照 抽样 比例 会 推定 所 有 的 100 万 包 里 有 可 
能 有 10 000 包 面 有 相同 的 质量 问题 ; 同 理 ，2 包 有 质量 问题 
就 推定 会 有 20 000 包 面 有 相同 的 质量 问题 。 在 真实 的 操作 
中 ， 这 种 抽检 的 比例 有 可 能 会 更 低 ， 不 会 天 天 都 检测 ， 如 半 
年 一 次 ， 一 次 若干 包 。 这 种 方式 虽然 看 上 去 可 能 会 产生 “ 漏 
网 之 鱼 "， 会 有 一 定 的 几率 让 不 合格 产品 流向 市 场 ， 但 是 从 工 
业 生 产 的 角度 来 说 操作 性 大 大 增强 ， 操 作成 本 也 降 到 极 低 。 
毕竟 检验 手段 的 发 明和 进步 ， 究 其 根本 还 是 为 了 保证 产业 的 E421 20 面 的 融 子 
良性 发 展 而 绝 非 阻 碍 其 发 展 。 

抽样 也 可 以 应 用 于 许多 别 的 领域 ， 如 在 类 似 民意 调查 中 使 用 抽样 ， 同 样 可 以 事半功倍 
起 到 非常 好 的 作用 。 有 一 个 例子 也 很 经 典 ， 就 是 美国 民意 调查 的 例子 ， 这 个 例子 也 见于 涂 
子 沛 先生 的 《数据 之 茵 》 一 书 ， 非 常 有 趣 。 

1936 年 ， 一 本 叫做 《文学 文摘 》 的 杂志 在 对 240 万 名 普通 美国 民众 进行 了 民意 调查 问 
卷 后 ， 得 到 结论 ， 认 为 兰 登 ( Alfred Landon) 会 当选 第 33 任 美国 总 统 。 要 知道 240 万 的 民 
众 可 不 算 小 数目 ， 印 发 、 邮 寄 、 统 计 ， 这 些 都 会 消耗 大 量 的 人 工 成 本 。 但 是 《文学 文摘 》 
选取 这 么 大 的 一 个 样本 进行 统计 ， 从 目的 来 看 显然 是 认为 调查 对 象 越 多 则 调查 结果 越 准确 ， 
为 此 他 们 不 惜 血本 。 此 时 ， 一 所 刚刚 成 立 不 和 久 的 研究 所 出 现 了 ， 它 只 对 5 000 人 进行 了 调 
查 ， 根 据 调查 结果 他 们 判断 罗斯 福 会 胜出 。 这 家 研究 所 就 是 1935 年 成 立 的 美国 僵 论 研究 所 
(AIPO)， 它 的 黄 基 人 是 美国 民意 调查 科学 化 的 先驱 一 一 乔治 . 盖 洛 普 (George Gallup) 





O 图 片 来 自 百度 图 库 
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在 1936 年 到 2008 年 间 ， 一共 进行 了 18 次 总 统 选举 ， 羡 洛 普 民 意 调 查 成 功 预 测 了 16 
次 ， 这 是 一 个 非常 惊人 的 成 就 。 但 是 盖 洛 普 是 怎么 通过 5 000 张 问卷 就 能 击败 240 万 张 问 卷 
的 调查 结果 呢 ? 难道 240 万 张 问卷 数量 多 反而 更 不 准 吗 ? 

这 就 是 我 们 在 应 用 抽样 中 需要 注意 的 一 个 问题 ， 那 就 是 抽样 对 象 要 更 加 有 代表 性 和 分 
散 性 ， 这 样 才 会 体现 出 与 整个 样本 空间 更 为 相近 的 分 布 特点 。 

前 面 例子 提 到 的 “用 类 似 扔 蜗 子 的 方法 来 选择 取 哪 几 箱 ， 哪 几 包 方 便 面 ， 取 出 一 定 的 
比例 来 做 随机 抽 测 ” 本 身 就 是 为 了 规避 人 为 选择 的 偏向 性 ， 让 每 一 箱 、 每 一 包 都 有 相等 的 
机 会 被 选中 。 而 总 统 选举 这 种 场景 可 以 想见 ， 投 票 人 里 面 涵盖 了 大 量 的 不 同 阶级 、 不 同 种 
族 、 不 同 利益 团体 的 对 新 总 统 期 望 的 价值 取向 ， 那 么 在 设计 抽样 对 象 时 就 应 该 考虑 按照 人 
口 比 例 进行 缩小 并 兼顾 各 种 利益 团体 的 样本 才 会 更 为 准确 ， 如 白人 、 黑 人 的 比例 ， 不 同 州 
的 人 口 比 例 ， 工 和 人、 中 产 阶级 、 资 本 家 的 比例 ， 男 、 女 性 的 比例 等 因素 。 

随 着 计算 机 存储 能 力 和 计算 能 力 的 不 断 增 强 ， 全 样本 空间 的 统计 和 计算 的 成 本 变 得 越 
来 越 低 ， 所 以 抽样 统计 现在 更 多 地 应 用 于 一 些 对 于 样本 收集 和 存储 成 本 过 高 的 领域 , 或 
者 由 于 种 种 原因 不 能 做 全 样本 收集 的 情况 ， 如 食品 检验 、 人 口 统计 、 大 气 /水 污染 检验 等 
领域 。 

抽样 的 合理 运用 在 人 们 生产 中 会 发 挥 其 “轻巧 ”的 作用 ， 对 于 那些 只 需 少 量 看 统计 效 
果 ， 快 速 出 反馈 的 试探 性 操作 来 说 ， 抽 样 应 该 是 再 合适 不 过 的 高 效 、 低 成 本 的 操作 方式 了 。 


4.8 m Bird 

前 面 的 章节 曾经 提 到 过 一 个 概念 ， 叫 做 “ 正 态 分 布 ”。 

正 态 分 布 (Normal Distribution) 又 名 高 斯 分 布 (Gaussian Distribution )， 是 一 个 在 数学 、 
物理 及 工程 等 领域 都 非常 重要 的 概率 分 布 ， 在 统计 学 的 许多 方面 有 着 重大 的 影响 力 。 

约翰 . 卡尔 . 弗 里 德里 希 . 高 斯 (Johann Carl Friedrich Gauss) 是 德国 著名 数学 家 、 物 
理学 家 、 天 文学 家 、 大 地 测量 学 家 ， 他 是 近代 数学 黄 基 者 之 一 ， 被 认为 是 历史 上 最 重要 的 
数学 家 之 一 ， 并 享有 “数学 王子 ”的 美誉 。 他 的 头像 也 被 印 在 以 前 德国 的 官方 货币 一 一 德 
国 马克 10 马克 上 ， 图 4-22° 所 示 为 10 德国 马克 上 的 高 斯 头像 。 有 一 种 说 法 认为 ， 高 斯 和 
阿 基 米 德 、 牛 顿 并 列 为 世界 三 大 数学 家 一 一 虽然 这 个 说 法 没有 得 到 书面 和 史料 方面 的 支持 。 
但 是 客观 地 评价 ， 高 斯 、 阿 基 米 德 、 牛 顿 这 3 位 科学 家 对 于 数学 发 展 的 贡献 确实 都 是 丰碑 
性 质 的 ， 这 点 疆 庸 置疑。 ， 

先 来 看 一 下 高 斯 分 布 的 概率 密度 函数 : 





i-a) 


peus EL so 2g^ | 


O 来 源 于 百度 图 库 。 
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图 4-22 10 德国 马克 上 的 高 斯 头像 
图 4-23 所 示 为 高 斯 密度 函数 的 郴 数 曲线 。 


34.196| 34.196 





图 4-23 高 斯 密度 函数 的 函数 曲线 


ni pg 不 熟悉 高 斯 分 布 的 朋友 估计 会 感觉 有 些 不 知 所 
Zi 这 里 简单 介绍 一 
先 介绍 一 e —————Á 
时 使 用 的 一 种 表达 式 ， 表 示 函 数值 y 和 自 变 量 x KARR, foo) 展开 之 后 就 具体 解释 了 x 参 
与 运算 的 过 程 。 而 概率 密度 实际 指 的 是 y=ftx), x 是 样本 特性 自 变 量 , y 是 x 在 这 个 样本 特 
wow EI e 的 多 少 次 医 的 概念 〈(e 是 一 个 无 理 
数 ， 也 就 是 无 限 不 循环 小 数 ，e < 2.718 28… )。 这 个 函数 的 峰值 在 xu 的 位 置 ， 此 时 对 应 
c su UR M a 
其 下 方 围 住 的 与 y=0(x 轴 ) 所 围 成 的 面积 占 比 。 它 在 x=y 左右 两 侧 的 函数 是 对 称 的 ,x TE u—o 
和 to 之 间 的 样本 数量 占 到 整个 样本 数量 的 68.2%, x 在 1-2o FI u+20 之 间 的 样本 数量 占 
到 整个 样本 数量 的 95.4%, x TE u—3o 和 y+30 之 间 的 样本 数量 占 到 整个 样本 数量 的 99.6%。 
高 斯 分 布 作为 分 布 特性 的 一 种 ， 首 先是 用 来 描述 统计 对 象 的 ， 如 果 统 计 对 象 的 分 布 特 
性 符合 高 斯 分 布 ， 那 么 所 有 针对 高 斯 分 布 的 定理 和 “经 验 值 ” 就 能 够 直接 套用 。 而 高 斯 分 
布 本 身 在 自然 界 的 应 用 是 非常 广泛 的 ， 用 一 句 话 解释 高 斯 分 布 所 表现 的 分 布 特点 就 是 “一 
Bue. 极端 的 很 少 ”。 
这 里 举 一 个 具体 的 例子 ,假如 对 某 一 地 区 的 男性 身高 做 了 一 个 随机 抽样 ,一共 1 000 
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人 ， 结 果 发 现 他 们 的 身高 是 一 个 /=175 cm 的 高 斯 分 布 ，o=10 cm。 那 么 首先 ， 这 样 一 个 描 
述 就 已 经 能 够 清晰 地 说 明 这 个 抽样 检查 的 结果 了 ， 而 以 下 结论 也 就 随 之 成 立 (图 4-24 ). 

身高 165 ~ 175cm 的 人 (大约) 有 341 名 。 

身高 175 ~ 185cm 的 人 (大约 ) 有 341 名 。 

身高 155 — 165cm 的 人 (大约) 有 136 名 。 

身高 185 — 195cm 的 人 (大约) 有 136 名 。 

身高 145 ~ 155cm 的 人 (大约 ) 有 21 名 。 

身高 195 ~ 205cm 的 人 (大约) 有 21 名 。 





图 4-24 1000 人 的 身高 分 布 


这 些 数量 基本 已 经 涵盖 了 统计 总 人 数 的 99.6%。 需 要 注意 的 是 ， 根 据 统 计 的 情况 在 不 
ERREF u A o 的 值 可 能 会 不 同 。 

4 较 大 ， 则 整个 函数 图 像 的 中 轴 向 右 挪动 比较 多 。 

n 较 小 ， 则 函数 图 像 的 中 轴 向 左 挪动 比较 多 。 

c 较 大 ， 则 整个 曲线 绵延 比较 长 ， 整 个 坡度 显得 平缓 。 

c SN, SEIZE If vr DE c 

作 合 高 斯 分 布 特性 的 对 象 是 非常 多 的 ， 平 时 也 会 看 到 很 多 这 种 “一 般 般 的 很 多 ， 极 端 
的 很 少 ”的 现象 。 如 平时 小 区 里 的 汽车 ， 其 中 中 档 的 比较 多 ， 高 级 的 比较 少 ， 特 别 破 的 也 
比较 少 (在 不 同 档次 的 社区 注意 x 可 能 会 不 同 ， 就 是 平均 水 平 在 不 同 小 区 之 间 可 能 偏差 很 
多 ， 高 档 小 区 的 车 普遍 比较 好 , 4 就 比较 大 ; 低档 小 区 的 车 普遍 不 大 好 ,4 就 比较 小 )。 如 
某 小 区 如 图 4-25 所 示 ， 大 部 分 人 买 的 汽车 都 30 万 左右 ,价格 高 的 和 低 的 汽车 数量 都 随 着 
与 30 万 的 距离 变 大 而 逐渐 变 少 。 

我 们 平时 接触 的 人 里 ， 智 慧 一 般 的 人 很 多 ,非常 聪明 的 人 较 少 ,非常 愚笨 的 人 也 较 
少 (在 一 些 大 公司 或 者 重点 学 校 里 虽然 整体 的 聪明 程度 提高 ， 但 是 还 是 存在 这 个 小 范围 内 
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的 高 斯 分 布 ， 即 4 比较 偏 右 ， 而 o 比较 小 )。 如 某 公司 全 体 员工 集体 做 了 一 次 IQ 测试 CR 
商 测 试 )， 测 试 结果 表明 智商 在 110 附近 的 人 最 多 ， 智 商 在 90 到 100 之 间 的 较 少 ， 同 时 智 
商 在 120 到 130 之 间 的 较 少 ， 而 智商 在 80 到 90 之 间 以 及 130 到 140 之 间 的 就 更 少 了 (图 
4-26 )。 这 也 符合 人 们 一 般 性 的 认 知 。 








图 4-25 汽车 的 价格 与 数量 关系 








图 4-26 智商 与 人 数 关系 


再 如 ， 全 社会 范围 内 的 收入 ， 中 档次 收入 的 人 比较 多 ， 特 别 贫穷 和 特别 富裕 的 人 较 少 ， 
但 是 他 们 在 地 域 上 的 分 布 和 职业 类 别 上 的 分 布 可 能 就 不 那么 均匀 了 。 诸 如 此 类 的 例子 还 有 
很 多 。 

高 斯 分 布 有 什么 用 呢 ? 

首先 刚才 说 过 ， 如 果 在 统计 过 程 中 发 现 一 个 样本 呈现 高 斯 分 布 的 特性 ， 只 需要 把 样本 
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总 数量 、y 和 o 表述 出 来 ， 就 已 经 能 够 形成 一 个 完整 的 画面 感 了 。 这 对 人 们 描述 对 象 是 有 很 
大 帮助 的 

还 有 一 个 好 处 ， 就 是 我 们 发 现 了 这 样 一 个 特性 以 后 ， 在 生产 制造 、 商 业 等 领域 会 有 很 
多 对 应 性 的 用 法 能 够 减少 不 必要 的 投入 或 损失 。 

例如 ， 在 设计 一 款 服装 后 ，S/M/L/XL 这 些 号 码 怎 么 设计 比较 合理 呢 ? 设计 完了 制造 
多 少 比较 合理 呢 ? 这 时 就 可 以 在 抽样 后 在 高 斯 分 布 曲线 上 找到 这 些 合适 的 点 。 既 然 上 -ac 和 
uto 之 间 已 经 占 68.296 了 ， 那 么 如 果 没 有 足够 的 预算 或 者 精力 ， 可 以 只 先 尝 试 做 一 个 以 4 
为 标准 的 板式 ， 针 对 一 部 分 人 打 板 做 市 场 推 广 。 因 为 再 做 1-o 和 jto 这 两 个 如 此 不 同 的 板 
式 ， 打 板 成 本 将 会 再 提高 2 倍 ， 但 是 增益 仅 有 不 到 50% (这 从 概率 密度 函数 上 就 可 以 看 出 
来 )。 这 其 实 就 是 一 种 针对 市 场 迎 合 的 分 析 和 尝试 一 一 优先 做 那些 受众 情况 最 一 般 、 人 数 最 
集中 的 部 分 。 

再 如 ， 常 常会 听 到 “二 八 法 则 ”这 种 说 法 一 一 在 不 同 的 场景 里 这 可 能 是 高 斯 分 布 的 一 
种 形式 。 假 设 正 在 经 营 一 家 游戏 公司 ， 公 司 有 一 款 刚 起 步 不 久 的 产品 A 游戏 ，A 游戏 有 1 
万 用 户 ， 如 果 想 做 这 一 款 游戏 的 用 户 扩展 工作 应 该 怎么 去 考虑 呢 ? 或 许可 以 尝试 这 样 : 先 
看 看 这 1 万 用 户 中 每 个 用 户 平均 在 游戏 里 充值 花 多 少 钱 ， 做 一 个 排名 。 不 花 钱 玩 的 人 会 不 
少 ， 还 有 一 些 花 极 多 的 钱 来 玩 游 戏 的 玩家 ， 中 间 的 是 中 坚 力 量 一 一 用 户 数量 大 ， 每 个 人 花 
费 的 额度 适中 ， 持 续 周 期 较 长 ， 这 样 的 一 群 人 更 值得 关注 。 对 于 这 些 用 户 ， 如 果 能 够 知道 
他 们 加 入 游戏 的 渠道 的 分 布 比 例 ， 就 有 理由 相信 这 些 渠 道 的 特点 和 它们 覆盖 这 些 用 户 的 特 
点 是 有 相关 性 的 。 例 如 ,这些 表现 活跃 的 用 户 究 竟 是 经 由 在 大 学 校园 里 做 宣传 活动 加 入 的 ， 
还 是 由 于 在 某 些 游戏 门户 网 站 发 的 广告 加 入 的 ， 还 是 通过 某 些 免费 软件 的 推广 渠道 加 入 的 。 
那么 如 果 想 扩大 这 部 分 用 户 的 数量 可 以 对 应 地 加 大 这 部 分 渠道 的 流量 。 至 少 直观 上 看 ， 这 
比 盲目 地 进行 全 方位 立体 交叉 的 广告 投放 效果 要 好 。 





4.9 泊 松 分 布 
IHE (Poisson) 分 布 是 一 种 统计 与 概率 学 中 常见 的 离散 概率 分 布 ， 由 法 国 数学 家 西 莫 
恩 . 德 尼 . 泊 松 (Simeon-Denis Poisson) (图 4-279 ) 在 1838 年 发 表 。 泊 松 分 布 是 概率 论 中 
最 重要 的 概念 之 一 
泊 松 分 布 的 概率 函数 如 下 : 
A. a 
P(X-k)-24— - e 
( pt ed 0,125. 
泊 松 分 布 的 参数 4 是 单位 时 间 (或 单位 面积 ) 内 随机 事件 的 平均 发 生 率 。 泊 松 分 
布 适合 于 描述 单位 时 间 内 随机 事件 发 生 的 次 数 。 其 中 心 是 指 大 的 阶乘 ， 也 就 是 上 Ex (Kk 
O 图 片 来 源 于 百度 图 库 
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1) x (Kk-2) x… x2x1, 大 取 非 负 整数 。 泊 松 分 布 概率 密度 函数 如 图 4-28 所 示 。 


P(X-k) 





AA oo CO O0 IX bi A 
0 5 10 15 20 





图 4-27 VHS - 德 尼 ' 泊 松 图 4-28 ” 泊 松 分 布 概率 密度 函数 


还 是 根据 认识 高 斯 分 布 的 经 验 来 认识 一 下 泊 松 分 布 。 也 就 是 说 在 一 个 标准 的 时 间 里 ， 
发 生 这 件 事 的 发 生 率 是 4 次 (注意 ， 这 是 一 个 具体 的 次 数 ， 不 是 一 个 概率 值 )， 那 发 生 大 次 
的 概率 是 多 少 。 

泊 松 分 布 适用 的 事件 需要 满足 以 下 3 个 条 件 。 

CI) 这 个 事件 是 一 个 小 概率 事件 。 

(2) 事件 的 每 次 发 生 是 独立 的 不 会 相互 影响 。 

(3) 事件 的 概率 是 稳定 的 。 

下 面 举 一 个 公共 汽车 到 站 的 例子 。 

假设 在 一 个 公共 汽车 站 上 有 很 多 不 同 线路 的 公交 车 ， 而 且 平 均 每 5 分 钟 会 来 2 辆 公交 
车 。 求 5 分 钟 内 来 5 辆 公交 车 的 概率 有 多 大 。 

ix H A78 EA 5. 
x2.718 28° ~ 0.361 





Je 
人 


概率 仅 3.6195. 

还 有 一 个 比较 经 典 的 例子 : 已 知 有 一 个 书店 ， 售 卖 许多 图 书 ， 其 中 工具 书 销售 一 直 较 
为 稳定 而 且 数 量 较 少 (概率 较 小 的 事件 )， 新 华 字 典 平 均 每 周 卖 出 4 套 。 作 为 书店 老板 ， 新 
华 字 典 应 该 备 多 少 本 为 宜 ? 

所 有 生产 中 解决 的 都 是 “为 宜 ”的 问题 ， 也 就 是 做 投入 产 出 的 权衡 。 本 例 中 ， 在 没有 
做 计算 之 前 我 们 先 想 一 下 ， 如 果 备 货 过 少 ， 那 么 每 周 很 可 能 都 会 有 用 户 “ 流 失 ” 掉 去 买 别 
的 书店 的 新 华 字 典 或 者 由 于 无 法 满足 客户 的 购书 需求 而 引起 客户 的 忠诚 度 下 降 等 问题 ， 而 
如 果 备 货 过 多 ， 那 么 就 会 占用 大 量 的 库存 空间 导致 库存 成 本 过 高 。 

这 是 一 个 典型 的 泊 松 分 布 问 题 ， 因 为 在 条 件 叙 述 里 它 是 满足 这 三 个 前 置 条 件 的 。 这 里 4 


O 图 片 来 源 于 维基 百科 。 
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是 4， 求 上 是 多 少 “ 为 宜 ”。 

这 里 需要 用 到 “累积 概率 "”， 其 实 “ 累 积 概率 ”的 用 法 在 前 面 高 斯 分 布 的 研究 中 已 经 
过 了 ， 就 是 指 自 变 量 取 值 在 一 个 区 间 内 的 所 有 概率 的 加 和 ， 在 高 斯 分 布 的 例子 里 从 w-c 到 
Lto 之 间 的 自 变 量 取 值 会 涵盖 68.2% 的 样本 空间 ， 这 就 是 “累积 概率 "， 即 有 68.296 的 样本 
都 存在 于 x K uo 到 jto 的 区 间 内 。 

在 这 个 例子 里 ， 也 求 一 下 累积 概率 。 由 于 是 离散 概率 函数 ， 可 以 先 求 出 上 所 对 应 的 各 
个 概率 的 大 小 ， 再 计算 累积 概率 的 大 小 。 


P(X-k-1)- 4! (1) + 2.71828^=7.33% 

P(X-k-2)- 4^ + (2 X 1) + 2.71828'-14.796 

P(X-k-3)- 4 (3 X2X 1) + 2.71828^-19.594 
P(X-k-4)-4* + (4X 3X2X 1) X2.718 28 * ~ 19.596 

P(X-k-5)- 45 - (5X4X3X2X 1) - 2.71828^215.696 

P(X-k-6)7 45 - (6X 5X4X3X2X1) 7 2.71828'-10.496 
P(X-k-Ty- 4! - (1X6X 5X4X3X2X1) 7 2.71828^-5.9594 
P(X-k-8)7 45 - (8X 7X 6X 5X4X3X2X 1) ? 2.71828'-2.9896 
P(X-k-9)- 4* - (9X 8X 7X6X5X4X3X2X 1) -* 2.71828'-1.3294 


对 应 的 表格 如 表 4-1 所 示 。 
表 4-1 不 同 k 值 对 应 的 累积 概率 













7.33% 
14.7% 
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87.0396 
92.98% 







































19.5% 41.53% 8 2.98% 95.96% 















对 应 的 概率 图 如 图 4-29 所 示 。 

dk 4-1 表示 的 取 值 ， 即 每 周 备 货 多 少 本 新 华 字 典 ， 以 及 销售 周 有 和 多 大 概率 会 有 上 本 的 
销售 数量 。 最 后 一 列 的 累积 概率 指 的 是 备货 为 本 的 情况 下 ,会 有 多 少 个 销售 周 的 销售 数 
量 小 于 等 于 备货 数量 。 这 里 只 算 到 /=9 的 情况 ， 其 他 情况 读者 有 兴趣 可 以 自己 再 算 。 图 4-9 
所 示 的 概率 图 中 ， 横 轴 为 次 数 上 ， 纵 轴 为 概率 %。 因 为 下 是 离散 值 所 以 画 成 离散 的 点 即 可 ， 
在 有 的 资料 上 会 用 曲线 把 每 个 点 顺序 连接 起 来 ， 这 种 画 法 也 没有 问题 ， 只 要 读者 知道 天 的 
取 值 为 正 整数 即 可 。 

具体 看 本 5， 新 华 字典 备货 为 5 件 的 情况 下 ,大概 有 76.63% 的 销售 周 不 会 有 供不应求 
的 情况 ， 这 些 销售 周 内 会 有 7.3396 的 销售 周 卖 出 1 本 ，14.7% 的 销售 周 卖 出 2 本 ，19.5% 的 
销售 周 卖 出 3 本 ，19.5% 销售 周 卖 出 4 本 ，15.6% 销售 周 卖 出 5 本 ， 总 之 不 会 超过 5 本 ， 也 


76.6396 
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就 是 一 年 的 52 周 里 有 40 周 可 以 满足 消费 者 需求 ， 还 有 12 周 会 脱销 。 


sn 


a 3 




















图 4-29 对 应 的 概率 周 


当选 择 三 7 时 ， 新 华 字典 备货 为 7 件 的 情况 下 ， 大 概 有 92.98% 的 销售 周 不 会 有 供 不 应 
求 的 情况 ， 也 就 是 一 年 的 52 周 里 有 48 周 可 以 满足 消费 者 需求 ， 还 有 4 周 会 脱销 。 

在 泊 松 分 布 的 例子 里 ， 可 以 看 到 一 个 现象 ， 就 是 上 每 增加 1， 在 上 小 于 4 的 时 候 ， 累 积 
函数 增加 是 很 快 的 ， 而 且 每 次 增加 的 量 比 上 一 次 增加 的 要 多 ; 而 在 上 越过 4 之后， 虽然 开始 
还 在 增加 ， 但 是 每 次 增加 的 量 比 上 一 次 增加 的 要 少 ， 然 后 越 来 越 少 。 所 以 这 个 技巧 在 解决 
类 似 的 问题 时 请 根据 实际 情况 其 酌 采纳 。 


4.340 伯 努 利 分 布 


AZF (Bernoulli Distribution) 是 一 种 离散 分 布 ， 在 
概率 学 中 非常 常用 ， 有 两 种 可 能 的 结果 ，1 表示 成 功 ， 出 现 的 
概率 为 (其 中 0<p<1 ); 0 表示 失败 ， 出 现 的 概率 为 9=1-P。 
这 很 好 理解 ， 除 去 成 功 都 是 失败 ，p 是 成 功 的 概率 ， 概 率 100% 
WE p 就 是 失败 的 概率 。 

伯 努 利 分 布 是 为 纪念 瑞士 科学 家 雅 各 布 . 伯 努 利 (Jakob 
Bernoulli) (图 4-30) 而 命名 的 。 这 里 值得 一 提 的 是 伯 努 利家 
族 。 瑞 士 的 伯 努 利家 族 (也 译作 贝 努 力 ) 是 一 个 很 伟大 的 家 族 ， 
一 个 家 族 3 代 人 中 产生 了 8 位 科学 家 ， 后 裔 有 不 少 于 120 位 被 ”图 4.30 HERR -AAI 








O 图 片 来 自 维基 百科 。 
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方面 享有 名 望 ， 有 的 甚至 声名 显赫 。 
伯 努 利 分 布 的 分 布 律 如 下 : 
| Jp =l 
Pei, d 


看 上 去 像 个 分 段 函 数 是 不 是 ， 它 也 可 以 写作 

P(n)7 p'ü- p)" 
这 两 个 写法 其 实说 的 是 一 回 事 ， 你 自己 可 以 把 n=0 和 n-1 分 别 带 进去 算 一 算 。 
伯 努 利 分 布 的 应 用 需 满足 以 下 条 件 。 
C1) 各 次 试验 中 的 事件 是 互相 独立 的 ， 每 一 次 n- 1 和 n-0 的 概率 分 别 为 p 和 gq。 
(2) 每 次 试验 都 只 有 两 种 结果 ， 即 n=0, 或 n=1。 
如 果 不 满足 这 两 个 条 件 ， 则 分 布 不 是 伯 努 利 分 布 。 
满足 伯 努 利 分 布 的 样本 有 一 个 非常 重要 的 性 质 ， 即 满足 下 面 公式 : 

PX -k)- C; p'ü - p^ 
我 们 解释 一 下 这 个 公式 的 含义 。 
n! 


其 中 , X 指 的 是 试验 的 次 数 ，C" 指 的 是 组 合 ， 也 就 是 证-i， 了 QP)” 就 是 p 的 


n KRS (1-p) 的 n-k KERRI 

这 个 公式 表示 ， 如 果 一 个 试验 满足 P(n) = p"(1-p)” 的 伯 努 利 分 布 ， 那 么 在 连续 试验 n 
次 的 情况 下 ， 出 现 n=1 的 情况 发 生 恰好 大 次 的 概率 为 C, . 斑 (1 -站 一 。n=1 就 是 对 应 概率 为 
p 的 情况 。 

下 面 用 一 个 小 例子 来 说 明 。 

例如 ， 张 三 参加 英语 雅思 考试 ， 每 次 考试 通过 的 概率 为 /3， 不 通过 的 概率 为 2/3。 如 
果 他 连续 考试 4 次 ， 那么 恰好 通过 2 次 的 概率 为 多 少 ? 

在 这 个 例子 里 可 以 比较 容易 看 到 ，P=1/3，n=4，K=2。 代 入 公式 : 


2 (4-2) 
ex(3) - (1) E M E 
3 5 Ax] 9 9 27 
因此 概率 为 8/27。 


这 个 例子 也 可 以 用 排列 组 合 来 计算 。 一 共 4 次 考试 ，2 次 通过 , 一 共有 6 种 情况 ， 如 表 
4-2 所 示 。 





表 4-2 通过 的 情况 


| 通过 | 不 通过 | 通过 | 不 通过 
| 通过 | 不 通过 | 不 通过 | 通过 | 
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试 着 求 每 次 的 概率 ,情况 1， 即 第 1 次 通过 且 第 2 次 通过 且 第 3 次 不 通过 且 第 4 次 不 
通过 。 这 里 千 万 不 要 漏 掉 后 面 两 个 条 件 ， 后 面 两 次 必须 是 不 通过 ， 和 否则 条 件 就 和 公式 不 匹 
配 了 。 

那么 ,第 1 次 通过 ， 概 率 为 113， 第 2 次 通过 ， 概 率 为 113， 第 3 次 不 通过 ， 概 率 为 
2/3， 第 A 次 不 通过 ， 概 率 为 2/3。 这 4 个 条 件 都 发 生 的 概率 为 


同 理 ， 情 况 2 到 情况 6 的 概率 都 是 4/81。 所 以 最 后 的 结果 是 
4 24 8 
sio wx 
结果 是 完全 一 样 的 。 
对 于 满足 伯 努 利 分 布 的 试验 来 说 ， 用 古典 概 型 进行 计算 显得 复杂 和 繁琐 ,尤其 是 n 和 
比较 大 的 时 候 用 古典 概 型 来 做 就 太 不 方便 了 。 
伯 努 利 分 布 的 应 用 场景 其 实 远 比 这 个 例子 丰富 ， 读 者 有 兴趣 可 以 再 继续 寻找 其 他 题目 
试 解 。 


4.4 ”小结 


在 前 4 章 里 学 习 了 一 些 统计 和 概率 的 基本 知识 ， 如 建立 指标 ， 是 使 用 加 和 值 ， 还 是 使 
用 加 权 平 均值 ， 在 制作 报表 的 时 候 是 否 应 该 适当 使 用 指标 的 同比 、 环 比 进行 对 比 ， 是 否 应 
该 适时 地 使 用 抽样 来 进行 用 户 调研 ， 是 否 可 以 在 报表 中 加 入 一 些 分 布 图 来 让 阅读 者 有 更 直 
观 性 的 认识 ， 是 否 能 用 排列 组 合 的 方式 算出 一 些 事件 在 生产 中 发 生 的 概率 …… 

统计 和 分 布 这 个 部 分 是 统计 和 概率 学 的 基础 部 分 ， 这 些 知识 能 用 来 解 哪些 题 ? 能 够 用 
在 什么 场合 ? 

要 回答 这 些 问题 需要 先 理解 统计 和 分 布 本 身 的 意义 ， 它 们 是 为 描述 大 量 样 本 的 宏观 样 
态 而 出 现 的 ， 究 其 根本 也 是 描述 为 目的 ， 它 不 是 算法 ， 所 以 通常 无 法 直接 拿 来 解 题 ， 但 是 
它 能 用 最 简洁 的 方式 给 我 们 带 来 大 量 样本 宏观 样 态 下 的 画面 感 ， 更 为 直观 。 至 于 使 用 的 场 
合 ， 如 果 描 述 的 对 象 是 大 量 的 样本 ， 那 么 就 用 简洁 的 方式 描述 它 的 宏观 状态 的 ， 即 使 用 统 
计 和 分 布 中 的 描述 方法 。 分 布 可 以 用 来 建 模 ， 也 可 以 用 来 解决 生产 生活 中 的 问题 ， 上 述 例 
子 就 是 很 好 的 样本 ， 读 者 可 以 试 着 再 去 找 一 些 案 例 ， 只 要 满足 分 布 的 前 置 条 件 都 是 可 以 套 
用 分 布 的 结论 和 推广 使 用 的 。 
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5.1 什么 是 指标 

指标 ， 顾 名 思 义 ， 就 是 指定 的 标准 。 词 典 里 的 解释 是 “衡量 目标 的 单位 或 方法 " 。 指 标 
就 是 为 了 描述 一 些 对 象 的 状态 而 制定 出 来 的 标准 ， 在 日 常生 产生 活 中 有 着 非常 广泛 的 应 用 。 

如 果 你 参加 工作 已 经 有 一 段 时 间 了 ， 那 么 对 于 指标 可 能 不 会 太 陌生 ， 甚 至 在 上 学 的 时 
候 我 们 身边 同样 有 过 各 种 指标 。 

我 们 上 学 的 时 候 ， 每 门 功课 的 期 末 考 试 分 数 为 百分制 ， 即 90 分 为 优秀 ，60 分 为 及 格 ， 
不 及 格 就 留级 。 这 就 是 一 套 简 单 但 是 完整 的 指标 体系 (图 5-1 )。 其 中 ,“ 指 标 ” 就 是 期 末 考 
试 分 数 ，“ 百 分 制 ” 就 是 指标 的 取 值 范 围 ，“90 分 为 优秀 ，60 分 为 及 格 ， 不 及 格 就 留级 就 是 
指标 满足 程度 的 奖惩 手段 。 

看 似 简单 的 一 个 指标 定义 却 完成 了 一 个 完整 的 指标 检验 闭环 。 在 这 个 闭环 里 ， 学 生 就 
是 指标 负担 的 主体 ， 学 生 为 了 达到 指标 而 学 习 ， 学 习 的 情况 用 指标 量化 表示 ， 最 后 根据 量 
化 的 指标 进行 奖惩 。 有 了 这 个 指标 体系 ， 学 校 的 名 声 、 教 师 的 水 平 高 低 、 学 生成 绩 水 平 的 
优 劣 都 有 了 量化 的 准绳 ; 这 为 由 此 产生 的 一 系列 “运营 ” 带 来 了 驱动 能 力 一 一 虽然 我 们 一 
直 非 常 不 情愿 把 教育 体系 当 作 运 营 的 对 象 ， 但 我 们 却 不 得 不 把 教育 体系 的 学 校 作为 运营 的 
对 象 。 

学 生成 绩 有 了 高 低 ， 就 能 有 不 同 的 晋升 途径 ， 教师 的 水 平 有 了 高 低 ， 就 能 有 评级 评奖 ， 
薪金 浮动 ; 学 校 的 名 声 有 了 体现 ， 就 能 有 口碑 和 好 坏 的 差别 ， 吸 引 师 资 和 学 生 的 差别 以 及 
赞助 费 的 差别 。 这 些 是 我 们 在 设置 考试 的 时 候 就 精心 设计 出 来 的 吗 ? 未 必 ， 这 是 由 考试 这 
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个 指标 体系 自然 而 然 衍生 出 来 的 一 系列 游戏 规则 。 


Qd, FRETS ofr ie x fe HRTRÉY 
PENARE... PAi d... 








图 5-1 学 生成 绩 指标 体系 


再 如 企业 里 有 不 同 的 岗位 ， 其 中 销售 岗位 是 最 容易 被 赋予 指标 的 ， 如 “月 销售 额 ”、 年 
回 款 率 ”等 。 其 中 “月 销售 额 ” 对 于 一 个 销售 人 员 来 说 是 最 容易 让 人 想到 的 一 种 指标 。 一 
个 销售 人 员 是 不 是 “优秀 ”"， 是 不 是 “有 能 力 ”"、“ 有 价值 "， 最 简单 的 就 是 用 卖 了 多 少 价值 
的 产品 来 衡量 。 而 “年 回 款 率 ”指标 是 在 “月 销售 额 ”指标 运作 的 前 提 下 才 会 有 的 ， 指 每 
年 的 销售 额 究 竞 有 多 少 是 真正 可 以 兑现 的 。 因 为 在 很 多 企业 里 ， 产 品 销售 有 一 些 特 殊 的 规 
则 ， 如 客户 先 拿 货 后 付款 ， 先 签 框 架 合同 后 交易 。 所 以 “月 销售 额 ” 有 可 能 会 由 于 具体 生 
产 细节 上 操作 的 问题 使 得 这 个 孤立 指标 的 意义 不 够 丰满 ， 还 需要 其 他 指标 来 补充 。 毕 竟 ， 
找 个 光 拿 货 不 给 钱 的 客户 ， 销 售 额 再 多 也 不 算 销售 人 员 有 能 耐 。 企 业 里 的 指标 运营 类 别 比 
学 校 丰富 得 多 ， 有 了 这 些 指标 ， 企 业内 部 可 以 进行 人 员 的 左 迁 和 右 迁 ， 刺 激 企业 良性 发 展 ， 
这 已 经 在 很 多 优秀 的 企业 中 得 到 验证 。 

再 如 体检 时 的 化 验 项 目 ， 如 眼睛 近视 度数 、 身 高 、 体 重 、 心 跳 、 血 压 、 血 糖 浓度 、 血 
小 板 浓度 …… 以 及 尿酸 浓度 、 各 种 转氨酶 浓度 等 专业 的 指标 。 小 小 一 张 化 验 单据 ， 多 则 百 
余 项 ， 少 的 只 有 一 二 十 项 ， 已 经 把 人 的 身体 状况 描述 得 即 简洁 又 具体 ， 这 就 是 指标 的 力量 。 

如 果 没 有 指标 我 们 的 体检 应 该 怎么 做 呢 ? 那 体检 报告 可 能 要 写成 长 篇 的 文章 来 描述 了 ， 
血液 比较 粘 稠 ， 像 什么 一 样 粘 稠 ， 粘 稠 到 什么 程度 ， 肝 部 也 许 有 轻微 炎症 ,炎症 严重 或 者 
不 太 严 重心 跳 听 起 来 跳 得 比较 快 …… 这 样 的 报告 不 只 是 参与 体检 的 人 看 不 懂 ， 估 计 医 生 
看 了 也 不 知道 究竟 是 多 粘 稠 ， 炎 症 多 轻微 或 多 严重 ， 心 跳 得 有 多 快 。 更 关键 的 是 ， 下 一 次 
体检 描述 完了 还 是 这 样 一 堆 文 字 ， 那 就 更 没有 办 法 做 每 次 体检 之 间 的 比较 了 ， 谁 知道 这 次 
“心跳 听 起 来 跳 得 比较 快 ” 和 上 次 的 “心跳 听 起 来 跳 得 比较 快 ”哪个 更 快 一 些 ， 是 更 快 了 还 
是 更 慢 了 (图 5-2 )。 如 果 连 针对 不 同 器 官 的 指标 分 类 都 不 存在 ， 那 体检 就 显得 更 滑稽 ， 甚 
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至 检查 了 半天 结果 只 能 说 “看 上 去 很 健康 ”“ 看 上 去 好 像 不 太 健康 " ， 这 哪里 叫 体 检 ， 连 街 边 
5 块 钱 一 次 的 相 面 测 字 都 不 如 一 一 这 种 体检 想 想 也 是 醉 了 。 





体检 概 告 
心跳 听 起 来 跳 得 比较 快 
meccsnek 
HIBEÉS b hA AE SR 
大 脑 容量 有 点 小 








图 5-2 没有 指标 的 体检 报告 


指标 给 我 们 带 来 的 便利 是 非常 明显 的 ， 这 也 就 是 在 各 行 各 业 广泛 使 用 指标 的 重要 原因 。 

在 指标 建立 的 过 程 中 ， 我 们 实际 做 的 是 一 个 建 模 的 过 程 ， 围 绕 建 模 要 做 很 多 辅助 工作 。 

在 综合 类 或 者 理工 类 大 学 会 有 一 门 选修 课 叫 作 “ 数 学 建 模 "， 我 们 在 书店 里 也 能 找到 关 
于 数学 建 模 的 书籍 。 这 里 的 建 模 和 数学 建 模 的 意思 相近 ， 至 少 目的 是 相近 的 。 我 们 要 做 的 
建 模 工作 实际 上 是 抽象 在 生产 生活 中 的 各 种 数字 ， 并 尝试 建立 数字 和 数字 之 间 的 逻辑 关系 
假说 ， 并 通过 分 析 手 段 来 进行 逻辑 关系 的 调整 ， 最 终 让 建立 的 这 种 逻辑 关系 和 客观 事实 一 
致 。 这 个 逻辑 关系 可 能 就 是 这 些 数字 之 间 的 加 减 乘除 或 宕 指 对 函数 等 。 

使 用 数学 建 模 的 手段 来 建立 数据 之 间 逻 辑 关系 的 例子 有 很 多 ， 生 物 学 家 可 能 会 观测 一 
个 地 区 的 温度 、 湿 度 以 及 当地 某 种 微生物 种 群 数量 ， 进 而 得 到 一 个 3 种 变量 之 间 的 逻辑 关 
系 ; 社会 学 家 可 能 会 通过 观察 一 个 地 区 的 收入 水 平平 均值 、 标 准 差 和 犯罪 率 来 做 一 个 模型 
描述 ， 描 述 犯 罪 率 可 能 由 收入 水 平平 均值 和 标准 差 这 两 个 值 的 一 些 运 算 逻 辑 来 表述 。 

我 们 平时 在 生产 生活 中 所 做 的 各 种 数值 的 统计 工作 ， 并 把 它们 定义 成 指标 ， 再 用 这 些 
指标 的 运算 组 合 来 定义 新 的 指标 ， 这 个 过 程 就 是 一 个 建 模 的 过 程 。 这 个 模型 是 直接 对 生产 
中 的 各 种 指标 数据 进行 逻辑 解释 的 。 例 如 ， 在 制作 互联 网 广告 系统 时 ， 在 网 页 上 推送 一 个 
广告 ， 做 一 个 计数 指标 “推送 数 "， 再 做 一 个 实际 进行 广告 点 击 的 计数 指标 “点 击 数 ”"， 定 
义 如 下 : 





转化 率 = 点 击 数 + 推送 数 
在 经 过 一 段 时 间 的 统计 后 ， 可 以 发 现 转化 率 很 可 能 是 一 个 定 值 或 者 是 围绕 某 w 值 的 正 
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态 分 布 。 那 么 再 进行 广告 投放 时 ， 就 能 够 根据 预期 的 推送 数 来 做 对 应 的 点 击 数 的 预 判 ， 进 
而 估算 出 收入 大 小 ,那么 广告 定价 或 者 投放 策略 调整 也 都 有 了 参考 。 


5.20 ”指标 化 运营 

在 现代 化 的 公司 里 ， 指 标 化 运营 是 必 不 可 少 的 手段 。 

指标 化 运营 会 让 公司 的 每 个 人 ， 不 只 是 领导 层 ， 甚 至 是 各 个 岗位 的 各 个 工作 人 员 都 清 
晰 地 知道 公司 当前 所 处 的 状况 以 及 自己 当前 的 表现 情况 。 就 像 日 常 化 的 体检 ， 或 者 汽车 的 
仪表 盘 那 样 一 目 了 然 。 

公司 指标 化 运营 的 好 处 显而易见 ， 对 于 老牌 公司 来 说 ， 已 经 形成 了 比较 完备 的 指标 体 
系 ， 可 能 并 不 会 困惑 ， 但 是 对 于 刚 成 立 的 新 公司 、 新 部 门 、 新 项 目 来 说 ， 应 当 怎样 选择 合 
适 的 运营 指标 呢 ? 我 们 不 妨 从 众多 优秀 的 指标 中 寻找 一 下 这 些 指标 的 共性 。 


5.2.4 指标 的 选择 

我 们 先 来 看 看 在 互联 网 行业 都 有 哪些 常用 的 指标 。 

PV (Page Views): 页 面 浏览 数 ， 通 常 指 的 是 每 天 的 点 击 数 ， 用 户 访 问 一 次 网 站 的 页 面 
就 算 一 次 PV。 如 果 说 一 个 网 站 每 天 有 100 万 PV， 那 就 是 说 这 个 网 站 所 有 的 网 页 每 天 一 共 
被 点 击 100 万 次 。 

UV (Unique Visitors): 独立 用 户 数 (浏览 数 )， 通常 指 的 是 每 天 的 用 户 浏览 数 ， 与 PV 
的 不 同 之 处 是 , 一 个 相同 的 用 户 如 果 点 击 页 面 10 次 , $E 10 个 PV, 但 是 只 算 1 个 UV。 有 
的 网 站 在 没有 用 户 体 系 的 情况 下 有 可 能 会 用 独立 IP 来 代替 这 个 指标 。 

DAU ( Daily Activated Users): 日 活跃 用 户 数 ， 即 每 天 活跃 的 用 户 数量 。 假 设 一 个 网 站 
的 注册 用 户 有 100 万 ,但 是 一 般 不 会 100 万 人 每 天 全 数 登 录 ， 可 能 只 有 5 万 人 登录 ， 那 么 
这 5 万 人 就 是 活跃 用 户 数 。 活 跃 用 户 的 定义 在 不 同 网 站 可 能 是 不 同 的 ， 只 是 一 般 习惯 上 说 
当天 登录 过 至 少 一 次 的 用 户 就 算是 活跃 用 户 。 

MAU ( Monthly Activated Users): 月 活跃 用 户 数 ， 每 月 活跃 的 用 户 数量 。 算 法 与 DAU 
类 似 ， 但 是 统计 周期 是 一 个 月 。 

LTV (Life-Time Value): 用 户 生命 周期 价值 ， 这 个 指标 在 游戏 行业 里 用 得 比较 多 ， 指 
是 在 一 个 用 户 “ 生 命 周 期 ”一 一 从 开始 玩 这 个 游戏 ， 到 最 终 抛弃 这 个 游戏 为 止 ， 一共 会 
这 个 游戏 付费 多 少 钱 。 

ARPU ( Average Revenue per User) : 每 用 户 平均 收入 。 这 个 指标 并 不 是 用 来 评价 用 户 
收入 水 平 ， 而 是 站 在 互联 网 产品 的 角度 ， 了 解 每 年 ( 某 一 年 ) 平均 从 每 个 用 户 身 上 可 以 收入 
多 少 钱 。 这 个 指标 在 互联 网 产品 、 电 信和 运营 产品 、 游 戏 产 品 等 很 多 领域 都 会 用 到 ， 是 一 个 
很 常用 的 指标 。 

这 些 指标 的 共性 如 下 。 


的 
为 
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1. 数字 化 

首先 ， 这 个 指标 的 设立 一 定 是 数字 化 的 ， 不 论 是 整数 还 是 小 数 ， 因 为 只 有 数字 化 才能 
够 比较 ， 数 字 化 之 后 才能 参与 各 种 运算 。 想 想 刚刚 我 们 在 体检 的 例子 里 说 的 那些 奇怪 的 情 
况 就 知道 数字 化 有 多 么 重要 了 。 

2. 易 衡量 

各 标 所 衡量 的 对 象 一 定 是 相对 比较 容易 衡量 出 来 的 。 上 述 指标 都 具有 这 个 特性 ， 如 PV 
数 ， 在 访问 日 志 里 用 以 下 语句 描述 : 

SELECT COUNT(*) 

FROM 


VIEW LOGS 
WHERE VISIT TIME BETWEEN '2016-01-05 00:00:00' AND '2016-01-05 23:59:59'; 


可 以 获得 2016 年 1 月 5 日 这 一 天 的 PV 数 。 或 者 在 Linux 系统 里 用 Shell 命令 切割 日 
志 后 ， 用 wc -| 命令 也 可 以 得 到 PV 数 ， 非 常 方便 。 

UV 实际 是 对 PV 的 用 户 维度 的 去 重 ，ARPU 值 是 一 个 “收入 总 数 / 用 户 数 ”的 商 。 

这 些 都 是 一 些 用 相对 简单 的 统计 手段 衡量 而 比较 容易 得 到 的 值 。 

指标 的 获取 成 本 要 低 ， 无 论 是 人 力 成 本 还 是 时 间 成 本 ， 毕 竟 作 为 工具 来 说 花费 过 多 的 
成 本 ， 甚 至 成 本 高 于 收益 是 不 划算 的 。 


3. 意义 清晰 

意义 清晰 是 非常 值得 注意 的 一 点 。 

首先 设立 的 指标 的 定义 是 不 容易 产生 二 义 性 的 ， 不 会 令 人 对 指标 本 身 的 含义 产生 多 种 
不 同 的 理解 。 

例如 ，UV 指 的 是 在 一 个 周期 里 有 多 少 不 同 的 用 户 来 访 。 在 一 个 网 站 用 户 系统 里 ,不同 
的 用 户 就 是 以 不 同 用 户 登 录 名 来 定义 的 ， 一 个 页 面 访问 就 是 一 个 访问 。 这 个 定义 在 说 明 一 
次 以 后 会 很 容易 被 大 家 记 住 。 

此 外 ，UV 上 涨 和 UV 下 降 ， 对 业务 也 有 清晰 的 解释 。 如 一 个 网 站 的 UV 持续 上 涨 ， 那 
就 说 明 注册 用 户 的 访问 量 在 增加 ， 反 之 在 减少 。 

再 如 ARPU 指标 ，ARPU 值 在 上 涨 ， 说 明和 平均 从 每 个 用 户 身 上 赚 到 的 钱 在 增加 ， 运 营 
健康 程度 应 该 说 也 是 在 增加 的 。ARPU 值 下 降 ， 说 明 平 均 从 每 个 用 户 身 上 赚 到 的 钱 在 减少 ， 
至 少 从 宏观 上 来 看 ， 每 个 人 愿意 为 产品 买单 的 热情 越 来 越 低 ， 产 品 运营 是 不 健康 的 。 

除了 指标 本 身 解 释 的 意义 清晰 以 外 ， 这 些 指标 基本 也 是 可 以 通过 改变 运营 策略 在 短 时 
间 内 立竿见影 看 到 反馈 效果 的 。 请 注意 ， 这 一 点 也 非常 重要 。 因 为 公司 运营 的 视角 和 其 他 
很 多 带 有 “创新 ”元 素 的 产业 一 样 ， 规 律 和 经 验 只 能 解决 一 部 分 问题 ， 很 多 运营 手段 ， 包 
括 公 司 活动 、 发 布 新 版 本 、 新 广告 上 线 、 公 司 在 媒体 方面 的 新 消息 等 ， 都 是 带 有 比较 多 的 
试探 性 意味 的 。 换 句 话 说， 在 做 这 些 事情 之 前 ， 只 是 对 这 件 事 会 产生 好 的 结果 有 期 许 ， 但 
是 不 能 也 无 法 决定 这 件 事 的 结果 是 好 是 坏 ， 程 度 如 何 也 未 可 知 。 所 以 一 旦 有 了 指标 ， 就 会 
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关注 在 一 件 事 情 以 后 指标 上 的 反馈 ， 有 了 对 指标 的 解读 ， 就 有 了 衡量 和 比较 的 标准 ， 它 能 
够 让 我 们 比较 方便 地 对 经 营 中 的 试探 做 出 适当 的 评价 。 

例如 ， 在 制作 一 个 游戏 的 过 程 中 ， 上 线 了 一 个 新 版 本 ， 第 二 天 发 现 DAU (日 活路 用户 ) 
下 降 了 20%， 那 么 我 们 就 很 容易 推断 是 新 版 本 的 发 布 导致 DAU 值 的 下 降 。 这 时 ， 我 们 要 及 
时 进行 原因 的 排查 ， 若 确实 是 新 版 本 的 市 场 影响 不 好 ， 那 么 一 定 要 及 时 做 版 本 回 滚 ， 亡 羊 
补 牢 总 比 在 月 度 结束 的 时 候 看 收入 报表 减少 了 再 来 找 原因 要 迅速 得 多 。 


4. 周期 适当 

指标 的 周期 设置 要 适当 ， 这 也 是 非常 重要 的 一 点 。 

上 述 例 子 里 ，PYV 的 周期 通常 取 一 天 。 一 天 的 长 度 是 比较 合适 的 ， 如 果 太 短 ， 每 小 时 计 
算 一 次 PV，PYV 本 身 会 由 于 很 多 随机 事件 而 变 得 波动 剧烈 ， 而 指标 对 趋势 性 变化 的 解读 通 
常 更 为 有 效 ， 举 试 对 指标 波动 的 解释 通常 都 很 让 人 困扰 。 网 站 今天 9 点 到 10 点 间 的 PV 数 
比 7 天 前 9 点 到 10 点 ( 周 同比 ) 的 PV 数 多 20%， 请 问 这 是 由 于 公司 的 良好 经 营 策略 增加 
了 20% 的 用 户 吗 ? 这 个 推论 无 法 成 立 。 这 个 波动 可 能 仅仅 是 由 某 一 次 宣传 上 的 转发 动作 而 
发 生 的 瞬时 性 的 访问 激增 ， 最终 一 天 的 PV 算 下 来 可 能 只 在 周 同比 上 有 1% 的 提高 ， 这 什么 
都 说 明 不 了 。 

周期 设置 长 一 些 会 怎么 样 ? 反馈 迟钝 。 如 果 用 周作 为 单位 来 统计 PY， 那么 如 果 要 看 经 
营 策 略 效 果 ， 则 至 少 要 到 一 周 以 后 才能 看 到 结果 ， 而 且 结 果 还 混杂 在 整整 一 周 的 PV 合计 
里 ， 难 以 区 分 策略 贡献 的 真实 大 小 。 

除了 周期 不 当 会 产生 的 指标 波动 难以 解读 和 反馈 迟钝 两 种 问题 以 外 ， 周 期 不 当 本 身 可 
能 都 让 指标 的 侦 测 行为 没有 现实 意义 。 

如 上 述 体检 的 例子 ， 半 年 一 次 体检 ， 一 年 一 次 体检 ， 这 些 周期 是 较为 合适 的 。 周 期 过 
短 ， 如 一 天 体检 一 次 ， 即 便 体检 都 是 在 早上 空腹 后 ， 有 极 大 的 准确 性 ， 也 确实 能 反映 每 一 
天 身体 各 器 官 各 指标 的 真实 情况 ， 但 是 存在 以 下 问题 。 

问题 1: 体检 会 花费 大 量 的 时 间 和 人 金钱。 一 次 体检 的 时 间 和 人 金钱 的 成 本 平 摊 在 一 年 中 几 
乎 可 以 忽略 不 计 ， 但 是 每 一 天 都 有 体检 开销 则 太 为 昂贵 。 

问题 2: 即便 体检 是 公家 报销 ， 时 间 也 充裕 。 但 是 如 此 频繁 和 短 周期 的 体检 结果 对 于 行 
为 有 什么 指导 价值 ?对 于 很 多 疾病 来 说 ， 治 疗 周期 都 是 几 个 月 甚至 半年 、 一 年 ， 如 此 频繁 
的 体检 对 于 观察 治疗 效果 显然 是 没有 必要 ， 因 为 这 并 不 比 半年 检查 一 次 有 更 多 效益 。 平 白 
地 提高 成 本 而 没有 可 预期 的 收益 ， 这 种 成 本 花费 的 意义 是 值得 质疑 的 。 


5. 尽量 客观 

指标 选择 的 最 后 一 个 标准 是 尽量 客观 。 

说 实话 ， 这 一 点 的 难度 其 实 并 不 低 。 人 本 身 就 是 一 种 靠 器 官 感知 世界 的 动物 ， 既 然 是 
感知 本 身 就 带 有 主观 性 ， 如 何 做 到 完全 客观 呢 ? 

有 一 些 指标 是 相对 容易 由 客观 的 统计 结果 得 到 的 数字 ， 如 PV、UV， 以 及 上 述 所 有 指 
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标 都 是 由 记录 结果 统计 而 来 的 比较 客观 的 指标 ， 因 为 它们 受到 观察 者 的 意愿 性 影响 较 小 。 

有 没有 主观 性 较 强 的 指标 呢 ? 有 的 。 如 在 一 些 企业 的 一 些 部 门 考核 中 的 各 人 打分 ， 这 
些 评分 的 客观 性 就 不 如 由 非 感性 的 数字 统计 而 来 的 表 5-1 部 门 员 工 评价 标准 
结果 客观 性 好 。 例 如 ， 部 门 员工 评价 中 会 看 到 类 似 评分 (1 一 5) 
表 5-1 所 示 的 评价 标准 。 

表面 上 看 ， 这 样 的 评分 标准 也 是 使 用 了 数字 化 
的 手段 ， 衡 量 标准 (印象 ) 几乎 是 装 在 脑子 里 瞬间 
就 能 有 ， 意 义 也 做 了 解释 ， 周 期 也 可 以 调整 为 半年 
或 者 一 年 。 但 是 这 样 的 方式 很 可 能 经 不 住 推敲 ， 因 
为 这 个 评价 实际 上 完全 依赖 一 种 模糊 的 印象 ， 是 一 
个 没有 标准 的 标准 。 所 以 这 种 评分 的 高 低 会 因为 打分 人 的 不 同 而 产生 巨大 的 波动 ， 他 心情 
好 与 不 好 ， 他 对 别人 的 要 求 严格 与 不 严格 ,他 是 否认 真 对 待 这 次 打分 ， 他 是 否 有 其 他 因素 
的 个 人 成 见 渗透 其 中 ， 这 些 都 令 人 对 这 种 评分 体系 的 公平 性 有 很 大 的 担忧 。 

事实 上 ， 在 日 常生 产生 活 中 ， 确 实 有 很 多 评分 是 极 难 避 开 人 类 主观 判断 的 ， 特 别 在 一 
些 无 法 做 到 数字 化 评判 的 场景 里 ， 例 如 ， 奥 运 会 里 的 自由 体操 运动 ， 油 画 比 赛 里 的 作品 打 
分 ， 再 如 CCTV 的 青 歌 赛 或 者 歌手 选秀 节目 (图 5-3 )。 除 了 为 了 满足 娱乐 层面 和 商业 运作 
层面 的 需求 外 ， 这 个 评分 的 体系 还 是 被 期 望 有 一 定 的 公平 性 ， 那 要 怎么 做 呢 ? 调和 的 思路 
是 ， 既 然 是 主观 ， 那 一 个 人 的 主观 就 不 如 多 个 人 的 主观 更 公平 。 











态度 : EKET, EFE 
能 力 : 能 力 突出 ， 作 用 显著 
考勤 : 不 迟到 ， 不 早退 
知识 水 平 : 知识 面 丰富 
互助 : 热情 帮助 其 他 同事 










去 掩 最 高 分 和 最 
低 分 最 后 得 分 … 





图 5-3 ”主观 性 的 评分 场景 

办 法 1: 多 个 裁判 同时 打分 ， 求 平均 值 。 这 样 由 个 别 裁判 主观 因素 形成 的 不 公平 因素 就 
会 被 削弱 。 

办 法 2: 去 掉 极 值 。 如 在 很 多 比赛 里 会 有 多 位 裁判 同时 打分 ， 然 后 去 掉 两 个 最 高 分 ， 去 
掉 两 个 最 低 分 。 这 种 办 法 也 是 为 了 削弱 由 个 别 裁判 主观 因素 形成 的 不 公平 。 

办 法 3: 加 权 平 均 。 加 权 平 均 在 这 种 情况 下 也 可 以 发 挥 作用 ， 例 如 ， 一 些 选 秀 类 节目 除 
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了 现场 裁判 打分 还 有 场 外 观众 打分 ， 当 然 权重 可 能 不 一 样 。 还 有 大 学 里 一 些 课 程 评分 体系 
也 是 有 类 似 的 思路 ， 期 末 考 试 占 70% 的 总 评 成 绩 ， 平 时 的 作业 占 30% 的 总 评 成 绩 。 大 概 思 
路 也 是 显而易见 ， 既 然 都 是 主观 评分 ， 那 裁判 有 权威 多 占 一 些 比 重 ， 群众 相对 更 不 明 真 相 
少 占 一 点 权重 ; 或 者 ， 期 末 考 试 比较 重要 比较 正规 多 占 一 些 成 绩 比重 ,平时 的 成 绩 也 能 说 
明 学 习 的 质量 但 是 相对 重要 性 较 低 少 占 一 些 成 绩 比 重 。 通 过 这 样 的 均衡 来 降低 某 一 个 人 或 
者 某 一 次 主观 性 的 偏差 对 我 们 期 望 的 尽 可 能 客观 的 评价 所 造成 的 影响 。 但 是 加 权 平 均 的 手 
法 在 实际 生产 生活 中 作为 指标 评价 的 手段 其 实 并 不 容易 操作 。 主 要 问题 在 于 分 权 引 入 哪些 
因素 更 为 合理 ， 因 为 这 些 被 引入 的 因素 的 成 分 很 可 能 不 可 控 。 还 有 一 个 问题 是 各 因素 赋予 
多 大 的 权重 更 为 合理 ， 这 通常 没有 一 个 可 靠 的 标准 。 所 以 只 要 能 用 客观 数字 来 做 指标 ， 尽 
量 使 用 客观 数字 ， 这 样 可 操作 性 会 更 大 一 些 。 


5.2.2 ”指标 体系 的 构建 
当 准 备 为 公司 设立 或 调整 指标 体系 时 ， 请 先 确保 它 满足 数字 化 、 易 衡量 、 意 义 清晰 、 
周期 恰当 等 基本 要 求 。 在 此 基础 之 上 ， 还 要 在 指标 的 设置 上 进行 一 些 额 外 的 考究 。 


1. 指标 考核 的 对 象 

指标 考核 的 对 象 是 谁 ? 换 句 话说 ， 谁 来 背 这 个 指标 ? 

不 能 背 指标 的 部 门 会 失去 活力 ， 从 老板 的 角度 来 看 ， 无 法 评价 员工 的 好 坏 ， 进 步 与 否 ， 
作用 大 小 ; 从 部 门 自己 的 角度 来 看 ， 不 知道 生产 调整 的 方向 是 进步 还 是 退步 以 及 幅度 多 大 。 
所 以 ， 如 果 要 想 让 部 门 变 得 有 活力 ， 部 门 以 及 部 门 中 的 每 个 人 都 应 该 背负 一 定 的 指标 。 而 
指标 的 评价 方 应 该 是 直接 享受 这 一 指标 收益 的 人 人。 例如， 公司 的 后 勤 部 门 为 公司 员工 提供 
各 种 后 勤 服务 ， 后 勤 部 门 背负 的 指标 里 应 该 有 诸如 “员工 满意 度 ” 这 种 指标 的 ， 而 这 种 指 
标的 评价 方 应 该 是 享受 后 勤 部 门 服务 的 员工 或 部 门 。 当 然 ， 不 建议 直接 使 用 员工 打分 的 形 
式 ， 应 该 尽量 用 “备货 延误 率 "、“ 投 诉 率 ” 等 相对 客观 可 循 的 数字 比较 好 。 


2. 指标 的 周期 

对 于 个 人 或 者 部 门 来 说 ， 指 标的 目的 是 为 了 进行 工作 质量 的 评价 和 调整 ， 所 以 周期 要 
设置 为 与 生产 周期 匹配 为 宜 。 在 很 多 劳动 密集 型 的 产业 ， 如 工厂 里 ， 工 作 指 标 是 用 小 时 做 
单位 的 ， 在 一 些 超 市 里 打 零 工 的 码 货 员 一 类 的 职位 同样 用 的 是 小 时 为 单位 的 指标 ， 因 为 他 
们 的 劳动 场景 以 小 时 为 单位 就 可 以 做 出 完整 评价 ， 如 “平均 每 小 时 成 品 数量 "、“ 平 均 每 小 
时 工资 ”等 。 

在 互联 网 企业 里 很 多 产品 指标 的 周期 是 天 ， 某 个 部 门 和 某 个 人 的 指标 周期 是 周 或 者 月 ， 
对 于 公司 级 别 的 指标 则 很 多 是 用 月 、 季 度 、 年 来 做 单位 的 。“Q4 销售 额 ” (第 四 季度 销售 额 )、 
“2015 年 度 租 亏 ”"， 这 两 个 指标 一 个 以 季度 为 单位 进行 统计 ， 另 一 个 则 以 年 为 单位 进行 统计 。 


3. 指标 的 比较 
指标 可 以 横向 对 比 也 可 以 纵向 对 比 ， 但 是 不 能 “和 斜 着 比 ” 。 
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所 谓 横向 ， 就 是 指 同一 部 门 或 同一 工种 之 间 的 同一 指标 的 对 比 。 横 向 通常 用 在 某 一 特 
定时 段 ， 对 员工 进行 排名 或 者 评 优等 评价 。 同 一 生产 线 上 的 同一 工种 的 每 个 工人 的 “平均 
每 小 时 成 品 数量 ”是 可 以 比较 的 ， 比 较 的 结果 就 是 谁 平 均 每 小 时 成 品 能 力 更 强 。 

所 谓 纵向 ， 就 是 同一 部 门 或 者 同一 员工 ， 自 己 某 一 指标 在 不 同时 段 的 对 比 。 

纵向 一 般 只 用 好 同比 和 环比 就 可 以 了 ， 只 比较 不 同时 段 的 情况 。 例 如 ， 销 售 部 门 的 销 
售 额 ，8 月 为 1000 万 ， 同 比 增加 20%， 环 比 增加 10%， 这 种 比较 就 是 典型 的 纵向 比较 。 

但 是 “ 斜 着 比 ” 通 常 没 有 可 比 性 。 同 一 时 间 段 不 同 部 门 的 不 同 指标 之 间 ， 单 纯 从 数字 
大 小 是 能 比较 的 ， 但 是 比较 的 结果 没有 任何 解释 性 的 意义 ， 所 以 一 般 不 做 这 种 对 比 。 


4. 复合 指标 

复合 指标 是 针对 基础 指标 而 言 的 。 

基础 指标 一 般 认为 是 不 可 再 分 的 指标 ， 如 PV 数 ， 这 个 指标 再 分 是 没有 业务 意义 解 
释 的 。 

复合 指标 一 般 是 由 基础 指标 和 复合 指标 进行 运算 得 到 的 。 如 游戏 中 常用 的 “用 户 留 存 
率 ” 就 是 一 个 复合 指标 ， 因 为 它 是 由 两 个 基础 指标 计算 而 来 的 ， 一 个 是 “注册 用 户 数 "， 一 
个 是 “留存 用 户 数 "， 用 “留存 用 户 数 ” 除 以 “注册 用 户 数 ” 得 到 的 商 作 为 “用 户 留存 率 ” 
指标 。 

复合 指标 在 指标 体系 里 的 数量 还 是 很 多 的 ， 尤 其 是 越 宏 观 的 数据 指标 越 是 复合 指标 ， 
这 也 符合 “ 抓 大 放 小 ”的 管理 原则 。 在 经 济 学 和 社会 学 上 用 到 的 很 多 指标 都 是 复合 指标 ， 
如 ， 全 球 繁荣 指数 、 社 会 基尼 系数 等 。 

除了 一 些 比较 大 型 、 层 级 多 、 涉 及 行业 或 生产 环节 多 的 公司 以 外 ， 一般 的 中 小 型 公司 
通常 不 推荐 使 用 过 于 复杂 的 复合 指标 体系 ， 因 为 这 让 指标 反映 变 得 不 直观 ， 反 馈 也 不 直观 。 
这 样 的 指标 值 上 升 了 或 者 下 降 了 ， 我 们 无 法 快速 地 找到 诱发 的 基础 指标 ， 更 无 法 快速 地 找 
到 对 应 的 环节 、 部 门 或 人 一 一 让 反映 变 得 迟钝 肯定 不 会 是 管理 的 目的 。 





533 ”小结 


读 到 这 里 我 们 已 经 读 完了 前 5 章 内 容 。 如 果 觉 得 有 些 乏 累 ， 可 以 先 喘 口 气 ， 因 为 我 们 
可 以 告 一 段落 了 。 在 前 5 章 里 我 们 讨论 了 排列 组 合 、 统 计 、 概 率 、 分 布 、 指 标 等 内 容 ， 附 
录 里 提供 了 数据 收集 以 及 其 他 辅助 技术 ， 如 果 使 用 好 这 些 知 识 ， 日 常 运营 中 的 多 数 问题 就 
都 能 解决 了 。 

后 面 的 内 容 会 更 多 偏重 数据 的 深度 挖掘 和 机 器 学 习 ， 对 于 基础 运营 人 员 来 说 这 是 要 求 
更 高 的 内 容 了 。 如 果 感 觉 前 面 的 内 容 没什么 困难 那 请 放松 心情 继续 往 下 读 吧 ， 它 们 虽然 离 
生产 生活 会 略 远 一 些 , 但 是 同样 不 难 。 
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从 本 章 开始 就 要 逐步 展开 数据 挖掘 和 机 器 学 习 相 关 的 内 容 了 。 

虽然 信息 论 和 很 多 数据 挖掘 算法 没有 直接 的 关联 应 用 ， 但 是 也 有 相当 比例 的 机 器 学 习 
算法 中 应 用 到 了 信息 论 的 概念 ， 所 以 这 里 还 是 要 提 一 下 信息 论 。 

信息 论 无 疑 是 20 世纪 最 伟大 的 发 明之 一 。 信 息 论 的 奠定 为 后 来 
的 通信 系统 、 数 据 传输 、 密 码 学 、 数 据 压缩 等 学 科 领 域 带 来 了 更 多 的 
提示 和 理论 依据 ， 也 极 大 地 促进 了 这 些 学 科 领 域 的 长 足 发 展 。 

克 劳 德 . 香农 (Claude Shannon) 被 称 为 “信息 论 之 父 ”。 人 们 
通常 将 香农 于 1948 年 10 月 发 表 于 《贝尔 系统 技术 学 报 》 上 的 论文 
( A Mathematical Theory of Communication 》(《 通 信 的 数学 理论 》) 作 
为 现代 信息 论 研究 的 开端 。 图 6-1° 所 示 为 克 劳 德 . 香农 。 

信息 论 涉及 的 内 容 非 常 多 ， 这 里 只 挑选 和 相关 的 最 基本 的 知识 点 
来 讲述 。 





图 6-1 AAH- 香农 


6.1 信息 的 定义 


前 面 的 章节 已 经 定性 地 介绍 了 信息 的 含义 。 这 里 引用 最 被 大 家 广泛 认可 的 一 种 科学 性 
的 信息 定义 一 一 “信息 是 被 消除 的 不 确定 性 。” 这 是 1928 年 由 哈 特 莱 (R.V.L. Hartley) 提出 
的 概念 。 这 句 话 读 起 来 还 是 不 够 具象 ， 下 面 举例 来 说 明 。 

还 是 讨论 前 面 提 到 的 足球 赛 结 果 的 例子 吧 (图 6-2 )。 


O 图 片 来 自 百度 百科 。 
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某 一 天 巴西 足球 队 和 中 国足 球 队 进 行 了 比赛 。 
结果 第 二 天 张 三 说 “昨天 巴西 队 赢 了 。” 

而 后 李 四 说 “昨天 中 国 队 输 了 。 

再 而 后 王 五 说 “昨天 的 比赛 不 是 平局 。 





图 6-2 ”足球 比赛 


在 没有 比赛 之 前 ， 我 们 只 能 对 结果 做 一 个 猜测 ， 仅 仅 赁 借 自 己 对 足球 比较 规则 的 了 解 ， 
结果 无 非 3 种 :“ 巴 西 胜 ”"、“ 巴 西 负 ”、“ 平 局 ”。 任 何 一 种 的 可 能 性 都 是 存在 的 ， 然 而 由 于 
一 些 其 他 原因 导致 其 中 某 一 种 可 能 性 出 现 的 几率 更 大 (大 家 都 懂 的 )。 

当 有 人 告诉 我 准确 的 结果 后 ， 如 “巴西 胜 ”， 那 么 另外 两 种 结果 就 不 存在 了 ， 这 个 过 程 
就 是 前 面 说 的 “消除 随机 不 确定 性 "， 这 一 句 “ 巴 西 胜 ” 就 是 信息 。 当 随机 不 确定 性 被 消除 
后 ， 再 被 告知 的 这 些 消息 里 就 没有 消除 随机 不 确定 性 的 因素 了 ， 所 以 这 些 消息 就 不 是 信息 。 
但 是 如 果 有 人 具体 描述 了 由 谁 在 什么 时 间 进 球 得 分 或 者 犯规 吃 了 红 黄 牌 则 又 是 信息 ， 因 为 
这 个 消息 又 消除 了 其 他 的 不 确定 性 。 


62 ”信息 量 


6.2.4 信息 量 的 计算 


信息 量 是 一 个 重要 的 知识 点 。 平 时 在 读 网 文 的 时 候 会 看 到 很 多 人 开玩笑 说 某 某 消息 信 
息 量 真 大 ， 其 实 言 外 之 意 是 说 这 篇 网 文 在 字面 意思 的 背后 再 琢磨 一 下 能 推断 出 很 多 其 他 信 
息 来 。 而 在 信息 论 中 ， 对 信息 量 是 有 确定 解释 并 且 可 以 量化 计算 的 ， 这 里 提 到 的 信息 量 是 
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一 种 信息 数量 化 度量 的 规则 ， 注 意 ， 信 息 是 具体 要 数量 化 的 而 不 再 是 前 面 开 玩笑 中 的 大 小 
的 说 法 。 

用 科学 的 公式 性 的 方法 量化 一 段 说 话 的 录音 ， 一 段 文字 有 多 少 信息 的 想法 最 早 还 是 在 
1928 年 由 哈 特 菜 ( R.V.L. Hartley) 首先 提出 ， 即 信息 定量 化 的 初步 设想 ， 他 将 消息 数 的 对 
数 (log) 定义 为 信息 量 。 若 信 源 有 m 种 消息 ， 且 每 个 消息 是 以 相等 可 能 产生 的 ， 则 该 信 源 
的 信息 量 可 表示 如 下 : 

I-log;m 

这 段 话 不 太 好 懂 是 吗 ? 我 们 具体 化 看 一 下 会 有 更 加 深刻 的 认识 。 

上 述 公 式 是 一 个 以 m 为 自 变 量 的 对 数 函 数 ， 即 1(m)=log, m。 还 记得 对 数 函 数 的 定义 是 
什么 吗 ? 这 里 复习 一 下 ， 例 如 ，23=8 (HI2x2x2, 2 893 KRET 8), IA 10g; 8=3。 

举 个 具体 的 例子 ,假设 是 中 国 乒乓 球 队 和 巴西 乒乓 球 队 的 男子 单打 比赛 ， 注意， 它 和 
足球 比赛 可 大 不 一 样 ， 它 不 存在 平局 的 问题 。 那 么 中 国 乒 乓 球 队 获胜 ， 巴 西 乒 乓 球 队 获胜 ， 
这 两 个 就 已 经 是 所 有 可 能 发 生 的 情况 了 ， 只 有 2 种 情况 ， 即 上 述 公 式 中 m=2， 信 源 有 2 种 
(中 国 队 获胜 上 且 巴 西 队 失 败 ， 巴 西 队 获 胜 且 中 国 队 失败 ， 这 2 种 信 源 消息 穷 举 了 所 有 的 可 能 
性 )。 太 log; 2=1， 信 息 量 为 1， 单 位 是 比特 (bit). 

再 举 一 个 例子 ， 足 球 世界 杯 在 淘汰 赛 阶段 会 有 32 支 球 队 参 赛 , 分 为 8 组， 每 组 4 支 球 
队 ， 通 过 单 循环 赛 每 个 组 有 两 支 球 队 会 有 出 线 权 ， 之 后 就 是 各 自 提 对 扬 杀 直到 决 出 冠军 。 
理论 上 讲 ， 在 32 支 球 队 没有 开赛 之 前 每 支 球 队 都 是 有 获取 冠军 的 可 能 性 的 。 也 就 是 说 ， 对 
于 谁 获得 冠军 这 件 事 来 讲 ， 有 32 种 情况 。 那 么 最 后 在 不 知道 比赛 过 程 的 情况 下 ， 突 然 被 通 
知 有 一 支 球 队 获胜 ， 这 个 信息 量 为 多 大 呢 ? 即 m-32 (也 就 是 32 支 球 队 的 任意 一 支 获胜 都 
是 一 种 信 源 消息 ，32 种 信 源 消息 穷 举 了 所 有 的 可 能 性 )， 三 log, 32=5， 信 息 量 为 5， 单 位 是 
比特 (bit)。 

为 了 计算 方便 ,这 里 使 用 的 是 m 为 2 的 整 次 需 来 计算 的 。 比 对 一 下 结果 不 难 发 现 ， 后 
者 有 32 个 可 能 值 的 时 候 信息 量 为 5S， 有 2 个 可 能 值 的 时 候 信息 量 为 1。 极 端 情况 是 ， 只 有 1 
个 可 能 值 的 时 候 信息 量 为 0， 因为 log, 1=0， 也 就 是 无 须 告 知 也 知道 结果 时 ， 即 便 告 知 了 结 
果 ， 信 息 量 也 为 0。 


6.2.2 ”信息 量 的 理解 
看 到 这 里 ， 可 能 有 一 些 读者 已 经 看 出 一 些 矛 盾 来 了 。 估 计 会 有 人 有 下 面 的 质疑 。 
' 我 怎么 觉得 中 国 乒乓 球 队 和 巴西 乒乓 球 队 的 比赛 毫 无 悬念 呢 ? 基本 可 以 确定 中 国 获胜 ， 


那 说 中 国 获胜 跟 废 话 区 别 大 吗 ?” 
“我 怎么 觉得 中 国足 球 队 和 巴西 足球 队 的 比赛 也 毫 无 悬念 呢 ? 基本 可 以 确定 巴西 获胜 ， 
那 说 巴西 获胜 信息 量 是 0 吗 ?” 


“按照 理论 ， 消 除 的 不 确定 程度 越 高 ， 信 息 量 越 大 ; 消除 的 不 确定 程度 越 低 ， 信 息 量 越 
Iio AA, 前面 的 计算 方法 似乎 不 成 立 啊 !” 
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这 种 质疑 确实 有 道理 。 

回 过 头 来 看 看 ， 刚 才 使 用 Hog, m 这 个 公式 来 计算 信息 量 其 实 是 有 一 个 隐 仿 前 提 的 ， 
就 是 m 种 情况 产生 的 概率 是 均等 的 ， 没 有 任何 一 种 信 源 比 其 他 信 源 出 现 的 可 能 性 大 。 举 一 
个 极端 的 例子 ， 虽然 有 两 种 情况 发 生 ， 但 是 一 种 可 能 性 实在 大 到 接近 100%， 而 男 一 种 可 能 
性 接近 0。 

例如 ， 现 在 的 《中 华人 民 共 和 国道 路 交通 安全 法 》 也 就 是 人 们 平时 说 的 交通 法 规 ， 其 
中 规定 “ 红 灯 停 绿灯 行 ”， 在 某 一 次 进行 交通 法 规 修 订 的 时 候 被 修改 为 红 灯 行 绿灯 停 的 可 能 
性 有 多 大 ? 理论 上 说 这 种 可 能 性 确实 存在 ， 至 少 没有 办 法 证 明 它 一 定 不 存在 ， 但 是 实际 上 
从 人 类 社会 协调 的 角度 看 ， 从 修法 的 社会 效益 来 看 ， 确 实 也 是 没有 理由 。 所 以 在 一 次 交通 
法 规 修 订 后 ， 被 告知 “交通 法 规 仍旧 是 红 灯 停 绿灯 行 ” 这 一 信息 的 信息 量 如 何 呢 ? 那 显然 
跟 0 差不多 ， 虽 然 这 种 情况 m 确实 是 2。 那 么 这 种 概率 不 等 的 情况 应 该 怎么 计算 比较 合适 
呢 ? 信息 论 里 也 有 确切 的 解释 和 计算 方法 。 

在 日 常生 活 中 ， 极 少 发 生 的 事件 一 旦 发 生 是 容易 引起 人 们 关注 的 ， 而 司空 见 惯 的 事件 
不 会 引起 注意 ， 也 就 是 说 ， 极 少见 的 事件 所 带 来 的 信息 量 大 。 如 果 用 统计 学 的 术语 来 描述 ， 
就 是 出 现 概率 小 的 事件 信息 量 大 。 因 此 ， 事 件 出 现 的 概率 越 小 ， 信 息 量 越 大 ， 即 信息 量 的 
多 少 是 与 事件 发 生 频 繁 程度 大 小 ( 即 概率 大 小 ) 恰好 相反 的 ， 这 里 不 能 称 作 成 反比 ， 因 为 它 
们 不 是 倒数 关系 。 

公式 如 下 : 











H(X;)--log, P 
蕊 表示 一 个 发 生 的 事件 ,已 表 示 这 个 事件 发 生 的 先 验 概 率 。 所 谓 先 验 概率 ， 就 是 这 个 事 
件 按照 常理 ， 按 照 一 般 性 规律 发 生 的 概率 。 
还 是 用 上 述 中 国 乒乓 球 队 和 巴西 乒乓 球 队 比 赛 的 例子 来 说 明 。 
假设 中 国 乒乓 球 队 和 巴西 兵 乓 球 队 历史 交手 共 64 次 ， 其 中 中 国 获胜 63 次 ，63/64 ER 
前 普遍 认可 的 中 国 队 获 胜 的 概率 ， 即 先 验 概率 。 那 么 这 次 中 国 获胜 的 信息 量 有 多 大 呢 ? 


63 
HQG)--1og; 7. 0.023 


巴西 获胜 的 信息 量 有 多 大 呢 ? 
1 


BOM logs i= 


6 





单位 都 是 bit。 

同 理 得 到 ， 对 于 概率 100% 的 事件 ， 信 息 量 为 0。 

而 概率 特别 小 的 事件 信息 量 是 多 少 ， 是 无 穷 大 吗 ? 再 来 看 一 个 例子 。 

胡 润 研究 院 发 布 了 2015 年 中 国富 豪 榜 ， 王 健 林 2 200 亿 元 财富 超过 马云 重 回 中 国 首富 
宝座 ， 马 云 以 1 450 亿 元 位 于 第 二 名 。 

马云 身价 1 450 亿 元 ， 假 设 一 个 人 通过 每 次 购买 双色 球 中 头 奖 而 得 到 500 万 奖金 (而 且 
假设 不 需要 交 税 )， 那 就 是 最 快 的 情况 下 需要 连 中 29 000 次 才能 赶 上 马云 (图 6-3 )。 也 就 是 
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说 假设 一 星期 开奖 3 次 ，3 次 全 中 500 万 ， 需 要 连 中 185.9 年 。 前 面 算 过 ， 中 头等 奖 的 概率 


1 290 00 
A 4 和 概率 是 多 少 呢 一 一 | 一 一 一 
H 1/17 721 088， 那 么 连 中 29 000 次 的 概率 是 多 少 呢 (5 721 3 o 





2015 2050 2100 2150 2200 
[6-3 连 中 双色 球 头 奖金 额 累计 ( 见 彩 插 ) 


1 
H(X;)-—-29 000 X log; 177-1088 99 687 


信息 量 约 为 70 万 。 

当然 ， 这 个 例子 其 实 非常 不 不 严谨 ， 因 为 185.9 年 通胀 得 有 多 少 没 有 人 知道 ， 马 云 在 
185.9 年 内 的 情况 也 全 无 定数 ， 我 们 这 个 例子 完全 是 一 种 刻 舟 求 剑 的 示意 而 已 ， 切 莫 深 究 。 
我 们 看 一 下 ， 这 种 已 经 不 可 能 到 极点 或 者 荒 雇 到 极点 的 信息 也 不 是 我 们 想象 的 天 文 数字 ， 
但 是 要 知道 在 信息 量 里 这 种 几 十 万 的 数字 已 经 就 是 天 文 数字 了 ， 我 们 有 个 感性 认识 就 可 以 
了 ,在 实际 生产 生活 中 我 们 计算 这 种 事情 的 信息 量 的 机 会 其 实 也 不 多 。 


6.3 FRAR 

香农 他 老人 家 留 给 我 们 最 经 典 不 过 的 东西 就 是 香农 公式 了 一 一 这 个 以 他 老人 家 的 大 名 
命名 的 公式 。 在 数据 挖掘 和 机 器 学 习 中 我 们 没什么 机 会 用 到 香农 公式 ， 不 过 他 发 明 的 这 个 
公式 无 时 无 刻 不 在 我 们 身边 际 荡 。 不 信 吗 ?我 们 用 的 无 线路 由 器 的 通信 传输 速度 就 是 用 香 
农 公 式 来 计算 的 ， 讲 到 信息 论 我 觉得 还 是 提 一 句 这 个 经 典 公 式 比 较 好 。 我 们 先 来 看 一 下 这 


个 公式 ; 
C- Bog (14 3.) 
^ N 
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单位 bps。 

其 中 ， 

B 是 码 元 速率 的 极限 值 ( 奈 硅 斯 特 指出 ，8-21， 如 为 信 首 带宽， 单位 为 Baud 

2 S 是 信号 功率 CO 

NN 是 噪声 功率 ( 瓦 )。 

这 个 让 人 头 大 的 公式 确实 尝 得 很 ， 如 果 你 不 是 搞 通 信 工程 的 ， 那 么 真 的 很 庆幸 ， 你 一 
非 子 确实 也 没什么 机 会 能 真正 用 上 它 。 我 们 在 这 里 提 到 这 个 公式 是 为 了 拓展 一 下 知识 宽度 
和 考虑 问题 的 思路 。 

公式 左边 的 C 表示 在 一 个 信道 里 面 信号 传输 的 速度 上 限 ， 单 位 为 比特 。 

公式 右面 的 是 和 带宽 天 小 五 成 正比 的 ， 带 宽 越 大 传输 速度 越 快 ， 不 管 是 有 线 传输 还 
是 无 线 传输 。 

总 是 信 品 比 ， 就 是 要 传输 的 信号 功率 和 在 这 个 信道 里 产生 的 各 种 信号 噪声 (基本 都 是 
电信 号 或 者 无 线 射频 信号 ) 的 功率 大 小 比值 。 

从 公式 定性 分 析 来 看 ， 带 宽 越 大 传输 速度 越 快 。 这 里 的 带宽 与 人 们 平时 说 的 “家 里 装 
了 100 Mbps 的 电信 宽带 ”中 的 带宽 不 是 一 个 概念 ， 这 里 的 带宽 的 单位 是 Baud ( 波 特 )， 家 
里 压 的 宽带 带宽 单位 是 bit (比特 )。 

信 品 比 越 大 传输 速度 越 快 ， 这 平时 也 有 体会 ， 就 是 WiFi 满 格 时 或 者 4G 信号 满 格 时 看 
网 页 、 下 载 电影 速度 就 快 ， 这 个 时 候 普遍 的 信 品 比比 较 大 ， 相 反 WiFi 信号 或 者 4G 信号 只 
有 一 格 时 着 网 页 效果 会 非常 不 好 ， 能 出 来 就 不 错 了 ， 还 有 的 时 候 居然 剧 了 半天 没 反应 ， 这 
个 时 候 其 实 主要 就 是 因为 信 品 比比 较 小 (图 6-4). 


咽 嘿 ， 我 信号 珊 磺 ， 微 信 朋 友 图 
me iii 








168-18. 68A 
微 信 都 发 不 出 去 …… 
N 





图 6-4 ”信和 品 比 对 传输 速度 的 影响 


信 噪 比 小 就 影响 传输 ， 传 过 去 的 信号 由 于 噪声 信号 干扰 太 大 ， 传 输 有 可 能 完全 不 成 功 。 
如 果 万 幸 信 噪 比 的 大 小 还 能 保证 部 分 信号 传输 成 功 ， 那 又 希望 保证 传输 的 信息 是 完整 的 怎 
么 办 ? 只 能 多 传 几 次 或 者 在 信息 后 面 加 入 一 些 校 验 码 来 做 信息 宛 余 。 
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6.4 Ni 


6.4.1 AJH 

在 本 章 的 最 后 要 介绍 的 是 本 章 最 重要 的 一 个 概念 ， 即 信息 (shang)， 也 是 最 抽象 的 
一 个 概念 。 

W MAEA E, EW, AEA EARR, m EAA E IRERE o 

AIPA "Ni" EEE 1855 年 由 德国 物理 学 家 兼 数学 家 
鲁 道夫 ' 尤 利 乌 斯 . 埃 马 努 埃 尔 : 克 劳 修 斯 (图 6-5?) 提出 的 。 据 
史料 称 ，1870 年 克 劳 修 斯 在 普法 战争 中 组 织 了 一 支 救 伤 队 奔 赴 前 
线 ， 而 他 本 人 在 战争 中 受 了 伤 而 且 持 久 伤 残 ， 因 此 被 授予 铁 十 字 
勋章 。 

克 劳 修 斯 在 物理 学 方面 的 贡献 主要 在 热力 学 方面 ， 别 的 我 们 都 
^fi, Hg "HW". WWR "AU RAEE, RTR 
个 大 家 在 学 生 时 代 常 见 的 现象 来 做 说 明 吧 。 

在 一 个 “U” 型 槽 里 ， 放 一 个 小 铁 球 ， 在 没有 空气 、 没 有 摩 
擦 的 情况 下 ， 小 铁 球 从 一 端 高 点 落下 会 由 于 能 量 守 恒定 律 在 这 个 
“U” 型 柳 里 反复 运动 ， 从 左 到 右 再 从 右 到 左 。 这 是 理想 的 无 能 量 图 6-5 克 劳 修 斯 
损失 的 状态 。 

而 实际 状况 是 什么 呢 ?” 空 气 阻力 以 及 槽 壁 与 小 铁 球 之 间 的 摩擦 使 得 一 部 分 能 量 从 重力 
势能 向 动能 转化 的 过 程 中 损耗 掉 ， 小 铁 球 随 之 能 够 到 达 的 高 点 也 越 来 越 低 。 在 这 个 过 程 中 ， 
越 来 越 多 的 机 械 能 不 可 逆 地 变 成 了 内 能 一 一 人 们 观察 到 的 就 是 整个 系统 发 热 ， 温 度 会 升 高 
—125, ATF E TA, LAAR "HT RRENAK ees 

fExX^ P BRBIARSEHL. AR, ÜLBRREULÉCBORKEBLP, a AEF 
5j, MERTI B BLERGE SEE EX, TS MAA HAEREA? B TASUBBI. Br 
以 根据 能 量 守 恒定 律 ， 可 以 推断 出 ， 最 后 小 铁 球 运 动 的 机 械 能 全 部 转化 成 了 内 能 ， 也 就 是 
在 整个 系统 中 最 后 温度 会 上 升 。 能 量 是 怎么 转化 的 呢 ? 根据 分 子 动 理论 ， 最 开始 系统 中 的 
各 种 分 子 不 管 是 固体 还 是 气体 都 以 较 低 的 速度 进行 布朗 运动 ， 也 就 是 无 规则 的 运动 。 而 有 
相当 质量 的 小 铁 球 在 系统 里 却 是 按照 一 个 相对 确定 的 方向 往复 运动 ， 它 是 有 机 会 由 重力 势 
能 转化 成 动能 ， 再 从 动能 转化 成 重力 势能 的 ， 当 然 也 有 机 会 转化 成 内 能 。 

最 开始 (图 6-6 ): 

系统 里 的 总 能 量 = 小 铁 球 的 重力 势能 + 小 铁 球 的 动能 + 内 能 

最 开始 小 铁 球 的 重力 势能 较 大 ， 小 铁 球 的 动能 为 零 ， 内 能 较 小 。 








图 片 来 源 于 百度 图 库 
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在 中 间 某 一 时 刻 小 铁 球 运行 到 最 低 点 时 ， 小 铁 球 的 重力 势能 为 零 ， 小 铁 球 的 动能 较 大 ， 
内 能 比 最 开始 时 升 高 (图 6-7 )。 





© 能 量 数值 "o 能 时 数值 








e 
D 动 内 
势能 能 
能 
图 6-6 开始 时 ( 见 彩 搬 ) 图 6-7 小 球 运动 到 最 低 点 ( 见 彩 插 ) 


最 后 小 铁 球 静止 时 ， 小 铁 球 的 重力 势能 为 堆 ， 动 能 也 ATE ， 内 能 升 高 到 最 高 (图 jeu 
最 后 机 械 能 全 部 不 可 闭 地 转化 成 内 能 ， 而 这 些 内 能 是 没有 机 会 再 变 成 机 械 能 的 ， 
内 能 的 增加 量 就 是 整个 系统 里 粹 的 增 量 (图 6-9 )。 





图 6-8 ”小 铁 球 静 止 图 6-9 KRE ( 见 彩 插 ) 


其 实 从 最 微观 的 角度 去 看 也 是 一 Rl, 最 开始 大 量 铁 原 子 的 质量 由 于 地 球 引 力 基本 都 
是 以 一 定 的 速度 向 一 方面 前 进 ， 再 克服 重力 升 高 ， 再 往复 。 到 最 后 由 于 能 量 在 摩擦 中 都 给 
了 周围 的 空气 分 子 和 其 他 分 子 ， 其 他 分 子 向 各 个 不 同方 向 前 进 的 速度 都 变 快 了 ， 温 度 升 高 
了 ， 但 是 再 也 没有 能 力 像 原 来 铁 原 子 一 样 向 一 个 方向 运动 了 (图 6-10 )。 

我 们 也 可 以 粗略 地 认为 ， 这 种 分 子 运动 的 杂乱 程度 变 高 了 ， 伴 随 着 这 种 杂乱 程度 的 变 
By. WT o 
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图 6-10 ”分子 不 能 向 一 个 方向 运动 ( 见 彩 插 ) 


也 有 一 些 物理 学 家 推广 了 热力 炉 的 存在 场景 ， 放 到 整个 宇宙 里 去 ， 提 出 了 热 寂 理论 
(Heat Death) 这 种 猜想 宇宙 终极 命运 的 假说 一 一 最 早 是 由 爱尔兰 数学 物理 学 家 威廉 . 汤姆 森 
( William Thomson) 于 1850 年 提出 的 。 大 意 是 ， 宇 宙 也 是 由 原子 之 间 的 斥 力 引 力 所 提供 的 
能 量 来 运动 的 ， 宇 宙 最 终 和 上 述 “U” 型 覃 命运 差不多 ， 也 是 向 着 焙 增 的 方向 发 展 ， 最 后 
宇宙 所 有 角落 的 机 械 能 都 没有 了 ， 宇 窑 内 能 增高 ,一 片 死 寂 。 但 是 到 目前 为 止 还 没有 任何 
事实 证 据 支 持 该 学 说 的 正确 性 。 


6.4.2 [ERN 
Bii rii 4r 2 2 7] f 3: 9248 7g Ta i fe SURE AE EETA, ATASE 
数据 挖掘 和 机 器 学 习 领 域 基 本 是 用 不 上 的 ， 只 是 两 者 形式 比较 像 。 
信息 焙 如 果 要 用 平民 语言 说 得 尽 可 能 直 白 的 话 ， 我 觉得 可 以 认为 是 信息 的 杂乱 程度 的 
量化 描述 。 
公式 如 下 : 
H(x) = -Y p(x,)log, P(x), i-12,n 


i=l 


其 中 , x 可 以 当成 一 个 向 量 ,就 是 若干 个 x 产生 的 概率 乘 以 该 可 能 性 的 信息 量 ， 然 后 各 
项 做 加 和 。 

也 许 有 的 读者 在 其 他 资料 上 会 看 到 这 里 的 log 是 取 10 的 对 数 g, 或 者 自然 常数 e 的 In 
自然 对 数 。 这 里 强调 一 下 ,在 应 用 的 过 程 中 用 任何 一 种 值 做 底 都 是 可 以 的 ， 但 是 注意 在 某 
一 次 应 用 的 整个 过 程 中 ， 参 与 本 次 应 用 的 所 有 信息 焙 都 必须 采用 同一 个 底 ， 不 能 将 不 同 底 
的 对 数 求 出 的 炉 再 做 加 和 或 者 比较 ， 这 样 完全 没有 意义 (就 好 像 3 米 和 2 英尺 ， 虽 然 都 是 长 
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度 单 位 ， 但 是 3 米 +2 英尺 既得 不 到 5 米 也 得 不 到 5 英尺 )。 本 书 的 例子 大 部 分 都 是 使 用 以 2 
为 底 的 对 数 进 行 计算 ， 请 注意 这 一 点 。 

1. 示 例 1: 2351 “一边 倒 ” 

为 了 说 得 清楚 还 是 具体 举例 吧 ， 还 是 用 中 国 乒 乓 球 队 和 巴西 乒乓 球 队 比赛 的 例子 说 明 。 

假设 中 国 乒乓 球 队 和 巴西 乒乓 球 队 历 史 交 手 共 64 次 ， 其 中 中 国 获胜 63 次 ，63/64 是 赛 
前 普遍 认可 的 中 国 队 获 胜 的 概率 一 一 注意 ， 这 个 是 先 验 概率 。 那 么 这 次 “中 国 获 胜 ” 这 个 
消息 的 信息 量 有 多 大 呢 * 

HXi- ~ 0.023 
“巴西 获胜 ”的 信息 量 有 多 大 呢 ? 
"EUN I 
H(Xi)--log; "m 6 
BEA, cS ERR DARET VG Ec Fe BR DA ETERA RE B AO 
63 1 
since i 0.1164 

对 于 无 限 不 循环 小 数 只 能 根据 需要 取 一 个 近似 值 ， 注 意 这 是 一 个 “2 选 1 的 情况 ， 并 且 

确定 性 相当 高 ”的 事件 的 炉 。 


2. 示例 2: 2 选 1“ 差 不 多” 
再 看 一 个 两 者 势均力敌 的 例子 ， 假 设 德国 乒乓 球 队 和 法 国 乒 乓 球 队 比赛 ， 双 方 历史 交 
手 64 次 ， 交 手 胜 负 为 32:32， 那 么 1/2 是 赛 前 普遍 认可 的 德国 队 的 获胜 概率 ， 同 时 也 是 法 


国 队 的 获胜 概率 。 
德国 获胜 的 信息 量 : 
l 
H(Xi)--log, —=1 
(Xi) 08:7 
法 国 获胜 的 信息 量 : 
l 
H(Xi)=-log, —=1 
(Xi) 087 
yup f Ei y 
plaga 
2 2 


注意 这 是 一 个 “结果 2 选 1 HFR” Dy. 


3. 示例 3: 32 选 1“ 差 不 多” 
如 果 在 足球 世界 杯 决赛 阶段 ， 即 假设 32 支 球 队 获得 冠军 等 概率 的 情况 下 进行 信息 焙 的 
计算 。 
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队伍 1 获胜 的 信息 量 : 


1 
H(Xi) = -log, 一 =5 


32 
队伍 2 获胜 的 信息 量 : 
1 
))-— —=5 
H (Xi) = -log, 23 
队伍 32 获胜 的 信息 量 : 
NE ds 
H(Xi) — log, ud 3 
MIRER (一 共 32 个 ) 
5 ETT E C 
32 32 


注意 这 是 一 个 “32 1 8f, AHER” BA. 
4. 示例 4: 32 选 1“ 一 边 倒 ” 


假设 队伍 1 获胜 概率 为 99%， 而 其 他 31 支队 伍 每 一 支队 伍 的 获胜 概率 都 为 195/31, 


ERARE El Jy Ae 
队伍 1 获胜 的 信息 量 : 
H(Xi)--log; 0.99 ~ 0.014 5 





队伍 2 获胜 的 信息 量 : 
HQC)-- log, ~ 11.60 
H(Xi)--log; E =~ 11.60 


URBA (后 面 一 共有 31 个 (0.01/31) x 11.60 ) 
0.01 0.01 0.01 
0.99 X 0.014 5-77 X11.604 ^77 X 11.60€ ^7 X 11.60 ^ 0.130 


5. 结论 


求 


在 信息 可 能 有 X 种 情况 时 ， 如 果 每 种 情况 出 现 的 概率 相等 ,那么 Y 越 大 ， 信 息 和 越 大 。 
在 信息 可 能 有 NN 种 情况 时 ， 当 NN 一定 ， 那 么 其 中 所 有 情况 概率 相等 时 信息 粹 是 最 大 的 ， 


而 如 果 有 一 种 情况 的 概率 比 其 他 情况 的 概率 都 大 很 多 ， 那 么 信息 业 就 会 越 小 。 
具体 的 值 在 具体 情况 可 以 进行 量化 的 计算 比较 。 笼 统 地 说 就 是 : 
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fa RA AGE, AMOR, dE EAMUS, 

ERRAZ, RILE, d& ROGA A. 

fc BARES RAE IUBE EB, KKA SMELBA BUE SUCK BERE S ADÉ EAEE, BE 
然 它 是 用 来 度量 信息 混乱 程度 的 ,那么 凡是 关心 信息 混乱 程度 对 系统 的 影响 的 地 方 都 可 以 
Fiet ERIR AA BUT e e AU MT o 

BA, Je rapi 32 fp 28 BALA E RETE: HUE RT VF ei BUE UEG IR TIER DOCIE; 在 文本 挖掘 
rp n] EUR fs SIE Br — 1 8) T- 1818] RE A RAE RETE 





6.5 小结 


本 章 需 要 了 解 的 是 信息 量 的 定义 、 信 息 粹 的 定义 和 计算 方法 ， 尤 其 是 信息 炉 的 计算 方 
法 ,这 在 后 面 很 多 算法 中 都 有 应 用 。 如 果 觉 得 这 些 例子 还 是 让 你 体会 不 深 ， 那 也 没关系 ， 
就 记 住 定性 的 结论 就 好 了 ， 只 有 好 处 没有 坏处 。 
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多 维 向 量 空间 


7.1 问 量 和 维度 


向 量 (Vector) 这 个 词 最 初 来 源 于 几何 学 。 

几何 向 量 也 称 为 欧 几 里 得 向 量 ， 通 常 简称 向 量 、 矢 量 ， 是 指 具 有 大 小 和 方向 的 几何 对 
象 表 示 。 为 了 形象 表示 ， 在 平面 几何 和 立体 几何 中 通常 把 一 个 向 量 画 成 一 个 箭头 。 在 中 学 
同样 学 过 用 复数 来 表示 的 向 量 ， 如 2+3i， 其 实 相 当 于 x 和 yy 两 个 向 量 维度 空间 里 的 向 量 ， 
是 从 点 (0,0) 到 (2,3) 之 间 引 出 向 量 (图 7-1 )。 

向 量 除 了 用 箭头 表示 外 ， 还 有 一 种 在 数据 计算 领域 更 常用 的 方法 ， 即 用 (a,b,c,d,…) 来 
表示 。 其 中 ，a、b、c、d 等 每 个 元 素 都 是 一 个 
维度 上 的 数据 取 值 。 在 大 数据 领域 的 计算 对 象 
基本 都 是 这 种 格式 的 向 量 ， 所 以 只 要 理解 这 种 
格式 的 含义 就 可 以 了 。 

下 面 通过 具体 的 例子 认识 向 量 的 用 法 。 

例如 ， 在 一 个 企业 的 数据 仓库 中 要 描述 一 
条 销售 信息 ， 可 以 表示 如 下 : 

C 3b V US V 网 上 商城 T'，400000 ) 

括号 里 的 向 量 各 个 维度 分 别 表 示 如 下 : 

(地 区 ,产品 类 别 , 代理 商 ,销售 额 ) 

上 面 的 叫做 向 量 实例 ,下 面 的 叫做 向 量 定 
义 。 这 种 向 量 在 计算 机 里 面 可 以 用 数组 来 实 
现 ， 也 可 以 在 关系 型 数据 库 里 用 一 行 记录 中 的 图 7-1 向 量 的 表示 
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字段 来 实现 ， 也 可 以 用 其 他 组 件 来 实现 。 不 管用 哪 种 载体 ， 客 观 上 表示 的 数学 含义 是 没有 
差别 的 ， 差 别 仅仅 在 于 在 处 理 这 些 数据 时 所 使 用 的 语言 或 者 工具 不 同 而 已 ， 所 以 完全 不 用 
担心 哪些 语言 支持 向 量 哪些 语言 不 支持 。 下 面 就 是 定义 这 个 向 量 (地 区 ， 产 品类 别 ， 代 理 
商 ， 销 售 额 ) 分 别 在 Python 、Java、SQL 这 3 种 语言 中 的 写法 。 
(1) 在 Python 中 的 写法 : 
#PYTHON CODING 
class sales: 
“Eb 
agency - '' 
sales amount - 0.00 


(2) 在 Java 中 的 写法 : 


#JAVA CODING 
public class sales { 
public string zone; 
public string type; 
public string agency; 
public BigDecimal sales amount; 


) 
(3) TE SOL 中 的 写法 : 


#SQL CODING 
CREATE TABLE SALES( 
ZONE VARCHAR(20) COMMENT ' 地 区 ', 
TYPE VARCHAR(50) COMMENT ' 产品 类 别 '， 
AGENCY VARCHAR(30) COMMENT ' 代理 商 '， 
SALES AMOUNT DECIMAL(18,3) COMMENT ' 4 € i ' 
); 
这 些 语句 都 是 在 各 种 不 同 语言 上 的 向 量 定义 语法 。 在 Python 语言 和 Java 语言 里 ， 向 量 
的 定义 其 实 就 可 以 理解 成 类 的 定义 ， 向 量 上 每 个 不 同 的 属性 就 是 不 同 的 维度 ， 一 个 实例 化 
的 对 象 就 是 一 个 向 量 的 实例 。 在 SQL 语言 里 ， 一 个 表 的 定义 就 是 向 量 的 定义 ， 一 个 向 量 的 
实例 其 实 就 是 表 里 的 一 条 数据 。 


7.1.4. 信息 元 余 

一 般 来 说 ， 向 量 的 每 个 维度 之 间 是 不 相关 的 ， 在 设计 一 个 向 量 时 也 是 希望 每 个 维度 不 
相关 。 如 果 想 知道 维度 如 果 相 关 会 有 什么 问题 ， 举 一 个 向 量 设计 上 的 反例 ， 如 在 某 系 统 里 
记录 一 个 个 人 的 信息 。 

向 量 定义 如 下 : 

(姓名 , 姓 , 名 ,出 生日 期 ,年 龄 ,驾驶 证 类 别 , 初 领 驾 照 时 间 , 驾龄 年 限 ) 
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向 其 实例 如 下 : 
(3k. '3k';'m', '1986-03-01', 30, 'CI*, '2015-01-01*, 1) 


在 本 例 中 可 以 看 到 ， 从 一 般 的 逻辑 来 说 ,“ 姓 名 ”这 个 维度 是 可 以 由 “ 姓 ”“ 名 ”两 个 
维度 推断 出 来 的 ,“ 姓 ”和 “名 ”收尾 相 接 就 能 得 到 “姓名 ”这 个 维度 。 而 “年 龄 ”是 可 以 
从 “出 生日 期 ”这 个 维度 推断 出 来 的 ,在 任意 时 刻 使 用 当前 日 期 与 “出 生日 期 ” 相 减 就 能 
得 到 “年 龄 ”这 个 维度 。 “驾龄 年 限 ” 也 是 可 以 通过 “ 初 领 驾照 时 间 ” 推 断 出 来 的 ， 在 任意 
时 刻 使 用 当前 日 期 与 “ 初 领 驾 照 时 间 ” 相 减 就 能 得 到 “驾龄 年 限 ”。 所 以 这 种 记录 方式 其 实 
EARE, TRE IT 领域 里 一 般 是 指 一 模 一 样 的 数据 存储 多 于 一 份 的 情况 。 本 例 在 
关系 型 数据 库 上 不 满足 设计 第 三 范式 (3NF， 这 个 概念 如 果 没 学 过 可 以 忽略 )。 对 于 这 种 有 
宛 余 的 信息 ， 还 是 一 分 为 二 来 看 ， 不 要 武断 地 说 一 定 不 可 行 。 

元 余 的 问题 是 ， 如 果 其 中 一 个 相关 的 字段 发 生变 化 ， 则 男 一 个 字段 也 必须 相应 地 做 出 
变化 ， 否 则 就 会 出 现 信息 矛盾 或 者 不 一 致 的 现象 。 如 现在 描述 的 张 三 是 30 岁 ， 明 年 他 就 31 
岁 了 ， 是 否 还 需要 一 个 程序 功能 自动 或 手动 对 这 个 字段 进行 更 新 ?如 果 在 系统 运行 过 程 中 
发 现在 登记 的 时 候 “ 初 领 区 照 时 间 ” 这 一 字段 填写 有 误 需 要 更 正 ， 那 么 “驾龄 年 限 ” 也 需 
要 同步 修改 。 这 对 于 保持 数据 一 致 性 来 说 ， 维 护 成 本 显然 是 会 提高 的 。 

宛 余 也 未 必 全 是 缺点 没有 一 丝 优 点 。 那 么 它 的 优点 是 什么 呢 ? 再 来 看 一 个 例子 。 

向 量 定义 如 下 : 

(用 户 ID, 1 月 消费 额 ,2 月 消费 额 ,3 月 消费 额 ,4 月 消费 额 ,5 月 消费 额 ,6 月 消费 额 ， 
7 月 消费 额 ，8 月 消费 额 ，9 月 消费 额 ，10 月 消费 额 ，11 月 消费 额 ，12 月 消费 额 ， 
全 年 消费 总 额 ) 

向 量 实例 如 下 : 

('0001',160,130,135,150,160,170,175,165,150,155,155,160,1865 ) 

在 这 个 例子 里 ， 有 一 个 全 年 消费 总 额 用 来 做 前 面 12 个 月 的 消费 额 的 加 和 。 如 果 这 个 系 
统 里 有 5 000 万 用 户 ， 应 该 怎么 统计 这 5 000 万 用 户 一 年 的 消费 总 额 ? 在 没有 “全 年 消费 总 
额 ” 这 个 维度 的 情况 下 ， 需 要 让 计算 机 做 6 亿 个 数值 对 象 的 加 法 (12 次 x5 000 万 ), 在 有 
了 这 个 维度 的 情况 下 ， 只 需 对 这 5 000 万 个 向 量 的 最 后 一 个 维度 一 一 “全 年 消费 总 额 ” 做 加 
和 ， 即 做 S 000 万 个 数值 对 象 的 加 法 即 可 ， 这 两 者 在 计算 效率 上 有 11 信 的 速率 差距 。 

这 11 倍速 率 的 差距 意味 着 什么 呢 ? 如 果 这 5 000 万 个 向 量 的 计算 需要 2 小 时 ， 那 么 这 
种 计算 可 以 在 凌晨 进行 ， 并 且 次 日 一 早 做 成 报告 。 而 6 亿 个 向 量 时 间 计 算 很 可 能 需要 22 小 
时 ， 那 么 这 种 报告 就 只 能 第 三 天 才能 送 达 。 这 不 仅仅 是 一 个 计算 效率 的 问题 ， 甚 至 影响 了 
一 个 业务 的 反馈 和 完整 流程 。 

至 于 在 具体 的 应 用 场景 里 是 否 使 用 元 余 字 段 需 要 应 用 者 根据 系统 设计 的 经 验 和 自己 的 
实际 需求 去 判断 ， 应 选择 在 满足 自己 系统 业务 运转 要 求 的 前 提 下 “成 本 ”更 低 的 方式 。 

元 余 信息 被 作为 加 快 数据 访问 速度 的 手段 应 用 最 多 的 情况 一 般 不 是 在 一 个 表 里 设置 元 
余 字 段 ， 而 是 在 很 多 海量 数据 的 数据 仓库 里 把 很 多 小 粒度 的 数据 计算 成 为 以 一 天 、 一 周 、 
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一 个 月 作为 更 大 粒度 统计 单位 的 宛 余 信息 表 或 者 指标 信息 表 ， 而 直接 访问 这 些 大 粒度 的 矶 
余数 据 ， 比 直接 访问 最 小 粒度 的 数据 进行 统计 效率 可 能 TIME, 


7.1.2 ”维度 

在 解释 向 量 的 过 程 中 其 实 多 次 提 到 了 维度 这 个 词 。 维 度 的 英文 是 Demension， 人 们 平 
时 说 的 3D 游戏 、3D 电影 中 的 3D 说 的 就 是 3 个 Demension， 或 者 说 3 个 维度 的 视觉 效果 ， 
以 区 别 过 去 玩 的 和 观看 的 平面 视觉 效果 的 2D 游戏 和 2D 电影。 就 连 80 后 们 最 熟悉 的 FC Jf 
戏 90 坦克 大 战 也 能 从 2D 搬 到 3D 空间 (图 7-29)。 











(a) 2D 


网 7-2 90 坦克 大 战 


EBHRITEGNIUE, EEUU MRIERON ATP TSEIR, IDOMGISGEPTHÉSIUS, IDR 
EE PTS. 这 种 说 法 如 果 还 是 觉得 抽象 ， 那 么 回 过 头 来 看 刚才 的 例子 

这 里 有 一 个 向 量 ( "北京 '，' 电 风 扇 '，' 网 上 商城 T'"，400000 )， 笼统 地 说 是 有 4 个 维度 
(地 区 ， 产 品类 别 ， 代 理 商 ， 销 售 额 )。 但 是 仔细 观察 不 难 发 现 ， 销 售 额 和 其 他 3 个 维度 好 像 
略 有 不 同 ， 它 的 值 所 发 生 的 变化 更 容易 引起 人 们 的 研究 兴趣 ， 因 而 这 类 维度 通常 会 被 当做 
研究 对 象 一 一 虽然 把 它 当 做 一 般 参 考 维度 来 进行 数据 分 析 也 不 一 定 没 有 意义 。 在 这 个 例子 
里 ， 人 研究 对 象 是 销售 额 ， 有 3 个 参考 维度 : 地 区 、 产 品类 别 、 代 理 商 。 后 面 将 会 介绍 这 种 
情况 下 怎么 去 做 相关 的 研究 。 

维度 的 设置 一 般 都 是 具有 “ 正 交 性 ”的 。“ 正 交 性 ”是 从 几何 学 中 借用 来 的 术语 。 如 果 
两 条 直线 相交 成 直角 ， 它 们 就 是 正 交 的 。 用 向 量 术语 来 说 ， 这 两 条 直线 互 不 “依赖 ”。 一 
点 沿 着 某 一 条 直线 移动 ， 该 点 投影 到 另 一 条 直线 上 的 位 置 始终 不 变 (图 7-3 )。 

以 平面 直角 坐标 系 为 例 ， 其 中 也 轴 和 了 轴 是 垂直 的 ， 也 是 正 交 的 。 如 果 有 一 个 点 沿 着 
无 轴 移 动 ， 不 论 它 怎么 移动 ， 它 到 了 轴 上 的 投影 都 会 在 (0,0) 坐标 点 上 ; 同样 ， 如 果 有 一 个 
点 沿 着 了 轴 移 动 ， 不 论 它 怎么 移动 ， 它 到 XX 轴 上 的 投影 都 会 在 (0,0) 坐标 点 上 。 在 这 个 坐标 
系 里 ,外 、 了 两 个 维度 就 是 正 交 的 。 




















图 片 来 源 于 百度 图 库 。 
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图 7-3 两 条 直线 正 交 


如 果 觉 得 不 是 很 好 理解 那 就 记 住 这 样 一 个 特点 ， 正 交 向 量 的 任何 一 个 维度 ， 值 发 生变 
化 时 都 不 会 引起 其 他 的 维度 的 值 变化 。 看 前 面 举 过 的 例子 。 


向 量 定义 如 下 : 

(姓名 ， 姓 ， 名 ， 出 生日 期 ， 年龄 ， 驾 驶 证 类 别 ， 初 领 驾照 时 间 ， 驾 龄 年 限 ) 
向 量 实例 如 下 : 

URET T Ru T2", "1986-03-01", 30, 'C1', '2015-01-01', 1) 


在 这 个 例子 里 ,“ 姓 ”和 “名 ”这 两 个 维度 相互 之 间 是 独立 的 ， 也 就 是 正 交 的 ,“ 姓 ” 
不 会 因为 “名 ”变化 而 变化 ,“ 名 ”也 不 会 因为 “ 姓 ”变化 而 变化 。 但 是 ,“ 姓 名 ”是 依赖 
于 “ 姓 ” 和 “名 ”这 两 个 维度 的 ,“ 姓 ”和 “名 ”任何 一 个 发 生变 化 “姓名 ”这 个 维度 的 值 
都 会 有 变化 。 

一 般 来 说 ， 向 量 的 设计 推荐 采用 维度 正 交 的 原则 ， 主 要 原因 也 是 为 了 避免 两 个 非 正 交 
维度 不 一 致 时 不 知道 该 采信 哪 种 更 好 。 


7.0 EREMIE BEE 


《黑客 帝国 》( The Matrix， 也 有 译作 《 骇 客 帝国 》 的 ) 是 一 部 非常 精彩 的 科幻 影片 ， 其 
英文 名 字 里 的 Matrix 就 是 矩阵 的 意思 。 

之 所 以 电影 会 取 名 为 Matrix 是 取 义 未 来 大 规模 机 器 智能 的 世界 都 是 以 无 处 不 在 的 大 规 
模 矩 阵 存储 和 大 规模 矩阵 运算 构成 的 ， 抢 阵 是 其 实现 的 数学 基础 。 

和 矩阵 的 研究 历史 悠久 ， 拉 了 丁 方 阵 和 幻 方 在 史前 年 代 已 有 人 研究 。 但 是 ,在 19 世纪 才 真 
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正成 为 一 种 比较 完整 的 数学 分 学 科 概 念 。 英 国 数学 家 凯利 被 公认 为 矩阵 论 的 葛 基 人 。 他 从 
1858 年 开始 ， 发 表 了 《和 矩阵 论 的 研究 报告 》 等 一 系列 关于 和 矩阵 的 专门 论文 ， 研 究 了 矩阵 的 
运算 律 、 和 矩阵 的 道 以 及 转 置 和 特征 多 项 式 方程 。 

和 矩阵 作为 一 种 独立 的 数据 构建 单元 ， 有 着 自己 约定 的 矩阵 相 加 、 和 矩阵 相 减 、 和 矩阵 数 乘 、 
矩阵 转 置 等 完整 计算 逻辑 。 例 如 

à, dis ds 
5, 055 d, 
p 05, 05; 03; 
O4 Ay 04, 

这 里 的 4 就 是 一 个 矩阵， 通常 说 一 个 矩阵 是 m xn 和 矩阵 ， 就 是 说 有 m 行 和 n 9), fex 
个 例子 里 ，4 是 一 个 4x3 的 矩阵。 每 个 矩阵 的 元 素 a 都 是 一 个 数字 。 像 不 像 二 维 数组 和 
数据 库 里 的 表 ? 

和 矩阵 是 有 着 完整 的 计算 定义 的 ， 常 用 的 矩阵 计算 规则 如 下 。 


1. 矩阵 的 加 法 
假设 矩阵 


和 矩阵 


规则 很 简单 ， 就 是 直接 把 对 应 “坐标 ”的 值 相 加 。 请 注意 ， 只 有 这 种 m 和 分 别 相同 
的 两 个 矩阵 才能 做 加 法 ， 这 种 m n 分 别 相等 的 两 个 矩阵 叫做 同型 矩阵 。 


2. 矩阵 的 减法 
513 
udi f 0 | 
和 矩阵 
126 
S: p 3 1 


"T g Lx 
UMS 8 
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减法 就 是 直接 把 对 应 “坐标 ”的 值 相 减 。 和 矩阵 减法 也 要 求 必 须 是 同型 矩阵 。 


3. 和 矩 阵 的 数 乘 
IB i AR IE 
513 
4-1202 
那么 
10 2 6 
EET. 
和 矩阵 的 数 乘 计 算 就 是 把 矩阵 的 每 个 元 素 都 乘 以 这 个 数 乘 倍 数 。 
4. 矩阵 的 转 置 
假设 和 矩阵 
513 
8*5 05 


如 果 B 是 4 EER EEE, MA 


B= 





5 2 
1 0 
3 2 

和 矩阵 的 转 置 计 算 相 当 于 把 矩阵 沿 着 对 角 线 翻 了 个 身 ， 行 变 列 ， 列 变 行 。 一 般 习 惯 把 矩 
阵 的 转 置 记 做 4 。 在 这 个 例子 里 ，B=4 。 


5. 矩阵 的 内 积 
只 了 解 m=1 和 n-1 这 两 个 矩阵 做 内 积 的 算法 即 可 。 
假设 矩阵 
A=[1 3 5 7] 
4 
3 
B- s 
l 
A fll B 的 内 积 : 
CA B- Y AB, 
在 这 个 例子 里 


C-A* B-1*4*3:3*5*:247-* 1-30 
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如 果 4、 妇 两 个 矩阵 如 下 : 
A-[ 3 5 7] 
B-|4 3 2 1] 
那么 可 否 将 两 个 矩阵 的 对 应 元 素 两 两 相 乘 然 后 加 和 呢 ? 也 是 可 以 的 ， 这 就 可 以 用 前 面 
介绍 的 矩阵 转 置 的 形式 来 表示 。 
A'B fl B'A 这 两 种 形式 都 会 得 到 30 这 个 结果 ， 因 为 计算 过 程 没 有 什么 差别 都 是 1 x 4+ 
3X3HSX2H7 x 12305 
在 高 级 人 工 智能 里 的 矩阵 运算 使 用 得 极其 复杂 ， 在 人 门 阶段 只 要 了 解 基本 的 矩阵 相 加 、 
矩阵 相 减 、 和 矩阵 数 乘 、 抢 阵 转 置 即 可 。 在 本 书 的 后 面神经 网 络 的 部 分 会 有 的 地 方 有 引用 ， 
做 到 心里 有 数 就 好 ， 在 公司 日 常 指标 运营 里 矩阵 计算 几乎 用 不 到 。 


73 数据 立方 体 
常见 的 魔方 是 一 个 3 x 3x 3 大 小 的 方块 ， 也 就 是 以 27 个 小 正方 体 为 单位 的 组 合体 。 
想象 一 下 ， 有 27 个 透明 的 立方 体 ， 对 这 27 个 方块 每 一 个 都 做 上 标记 ， 如 图 7-4 所 示 。 








图 7-4 标记 27 个 方块 

把 向 量 (地 区 ， 产 品类 别 ， 代 理 商 ， 销 售 额 ) 分 解 一 下 ， 每 一 条 边 都 写 上 一 个 维度 的 
值 ， 每 个 立方 体 中 间 都 写 一 个 数字 ， 再 组 合 起 来 ， 发 现 原来 的 27 个 向 量 在 立体 空间 里 变 得 
非常 直观 。 

如 果 觉 得 数字 不 够 给 人 眼睛 产生 刺激 ， 那 就 试 试 另 一 种 方式 ， 把 数字 对 应 的 值 做 一 下 
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颜色 深度 标识 ， 数 字 大 的 颜色 深 ， 数 字 小 的 颜色 浅 ， 如 图 7-5 所 示 。 
代理 商 


单位 : (万 元 ) 





网 上 商城 D 


网 上 商城 J 


图 7-5 用 颜色 标记 


颜色 深浅 一 般 的 通常 不 会 引起 人 们 的 注意 ， 最 吸引 人 注意 的 其 实 是 那些 颜色 特别 深 的 
和 颜色 特别 浅 的 。 其 实 也 不 难 理解 ， 在 一 群 人 里 ， 比 较 引 人 注意 的 是 什么 样 的 人 呢 ? 个 子 
特别 高 的 ， 个 子 特别 矮 的 ， 长 得 特别 漂亮 的 ， 长 得 特别 丑 的， 长 得 特别 胖 的 ， 长 得 特别 瘦 
的 。 也 就 是 说 ， 吸 引 人 和 人 注意 的 一 定 是 和 众多 样本 相去 较 远 的 样本 ,而 比较 “平庸 ”的 样本 
通常 不 太 引 人 注意 。 

上 述 数据 “魔方 ”就 是 数据 立方 体 ， 是 一 种 比较 直观 的 大 数据 可 视 化 技术 ， 它 能 够 帮 
助人 们 在 一 个 研究 对 象 和 3 个 维度 (及 以 下 ) 的 情况 下 快速 找到 让 人 感 兴趣 的 那些 小 数据 
块 ， 快 速 定位 “问题 ”所 在 。 从 例子 里 容易 看 出 来 什么 地 区 、 什 么 产品 类 别 、 什 么 代理 商 
的 销售 额度 格外 高 或 者 格外 低 ， 在 同一 个 地 区 同一 个 产品 类 别 里 ， 哪 个 代理 商 销售 的 额度 
格外 高 或 者 格外 低 。 

但 是 ， 一 个 向 量 可 能 不 止 有 3 个 维度 而 且 每 个 维度 里 只 有 3 个 枚 举 值 ， 有 的 维度 可 能 
有 几 十 个 甚至 上 百 个 枚 举 值 ， 这 时 立方 体会 变 得 很 复杂 。 要 想 看 得 比较 细致 就 只 能 做 切片 
处 理 ， 如 图 7-6 所 示 。 

需要 强调 的 是 ， 数 据 立方 体 这 种 视角 在 一 些 商 业 BI 软件 里 提供 了 很 好 的 互动 查询 工 
具 ， 但 是 很 多 自 研发 的 企业 BI 部 门 可 能 就 需要 自己 再 去 摸索 这 种 视图 如 何 开发 了 。 
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单位 : (万 元 ) 


代理 商 





图 7-6 切片 


7.4 上 卷 和 下 外 


数据 立方 体 帮 助人 们 快速 定位 “问题 ”。 但 是 数据 立方 体 还 有 一 个 问题 ， 就 是 一 下 子 展 
开 这 么 多 维度 值 会 让 人 眼花 综 乱 。 

目前 人 类 通过 研究 发 现 ， 人 类 自身 的 机 械 记 忆 极 限 是 5 ~ 9 个 对 象 ， 也 就 是 说 正常 情 
况 下 人 记 住 5 个 毫 无 关联 的 对 象 是 没 问题 的 ， 记 忆 好 一 些 的 可 以 记 住 9? 个， 只 有 经 过 特殊 
训练 的 人 可 能 用 其 他 技巧 能 够 记 住 更 多 。 多 于 9 个 的 对 象 常人 就 很 难 记得 清楚 了 ， 也 很 难 
一 下 子 掌握 。 那 么 能 和 否 用 逐 层 递 进 的 方式 对 数据 立方 体 进行 归纳 式 的 管理 呢 ? 答案 是 肯定 
的 。 这 就 是 将 要 介绍 的 上 卷 (Rollup) 和 下 钻 (Drilldown ) 。 

在 一 个 视图 下 ,“ 向 下 外 入 ”一 个 立方 体 时 可 以 看 到 更 多 的 细节 ， 而 当 人 们 对 当前 的 视 
图 不 再 有 兴趣 需要 回 退 到 上 一 级 别 的 视图 时 ， 可 以 把 当前 视图 “向 上 卷 起 ”， 如 图 7-7 所 示 。 
这 样 在 每 个 视图 中 都 能 在 有 限 的 研究 对 象 里 较 快 定位 到 “问题 ”所 在 ， 这 就 是 上 卷 和 下 处 
两 种 操作 的 应 用 。 
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单位 : (万 元 ) 





图 7-7 上 卷 和 下 钻 〈 见 彩 搬 ) 


当然 ， 数 据 立 方 体 的 局 限 性 也 是 很 明显 的 ， 即 如 果 向 量 更 多 一 一 超过 3 个 维度 ， 就 无 
法 在 空间 里 夯 出 一 个 立方 体 进行 星 现 了 ， 而 数据 挖掘 很 多 时 候 研究 的 数据 远 远 比 3 个 维度 


要 多 ， 所 以 在 高 维度 数据 的 研究 中 ， 虽然 数据 立方 体 的 逻辑 客观 存在 ,但 是 在 对 其 进行 


据 挖掘 和 机 器 学 习 的 过 程 中 基本 用 不 到 数据 立方 体 的 可 视 化 技术 。 读 者 在 实现 的 时 候 请 酌 


情 进 行 视 图 选择 。 


7.5 ”小结 


关于 多 维 向 量 空 间 ， 只 要 掌握 向 量 的 定义 、 维 度 的 定义 即 可 。 至 于 正 交 维度 ， 请 读者 


注意 在 日 常生 产生 活 中 的 设计 技巧 。 
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回归 是 一 种 解 题 方法 ， 或 者 说 “学 习 ” 方 法 ， 也 是 机 器 学 习 中 比较 重要 的 概念 。 没 有 
学 过 回归 的 朋友 可 能 看 到 回归 这 个 词 猜 不 出 这 是 个 什么 概念 ， 觉 得 很 神秘 。 其 实 我 平生 第 
一 次 看 到 这 个 词 的 时 候 也 猜 不 出 是 干什么 用 的 , A? 回 哪儿 去 ?”。 

回归 的 英文 是 Regression ， 单 词 原 型 的 regress 大 概 的 意思 是 “ 回 退 ， 退 化 , 倒退 ”。 其 
实 Regression 回归 分 析 的 意思 借用 了 “倒退 ， 倒 推 ”的 含义 。 简 单 说 就 是 “由 果 索 因 ” 
的 过 程 ， 是 一 种 归纳 的 思想 当 看 到 大 量 的 事实 所 呈现 的 样 态 ， 推 新 出 原因 是 如 何 的 ; 
当 看 到 大 量 的 数字 对 (pair) 是 某 种 样 态 ， 推 断 出 它们 之 间 列 含 的 关系 是 如 何 的 。 








8.1 线性 回归 


线性 回归 是 利用 数理 统计 学 中 的 回归 分 析 来 确定 两 种 或 两 种 以 上 变量 间 相 互 依赖 的 定 

量 关系 的 一 种 统计 分 析 方 法 。 其 表达 形式 如 下 : 
y=ax+b+e 

e 为 误差 服从 均值 为 0 的 正 态 分 布 。 

简单 说 大 概 是 这 样 ， 通 过 统计 或 者 实验 ， 可 能 会 得 到 两 种 值 (两 个 系列 的 值 ) 的 对 应 
关系 ， 这 两 种 值 一 种 是 yy 一 种 是 x， 每 组 y 和 x 是 成 对 出 现 的 一 一 对 应 ， 最 后 可 以 用 一 种 
y=ax+b+e 的 表达 式 来 表示 它们 的 关系 。 

而 这 其 中 的 e 不 是 一 个 定 值 ， 它 和 入 对 应 着 出 现 (有 一 对 y 和 x， 就 有 一 个 e)。 这 
个 e 的 值 满足 正 态 分 布 , 4 为 0。 

有 人 说 还 是 y=axtb 看 着 比较 舒服 ，a 是 斜率 , b 是 截 距 ， 初 中 时 大 家 都 学 过 。 但 是 
y=ax+b+e 看 着 别扭 ， 我 们 后 面 来 说 说 这 个 e 是 怎么 出 来 的 。 

下 面 看 一 个 完整 的 操作 过 程 。 
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8.2” 拟 合 

回归 这 种 方法 我 们 在 中 学 课本 里 是 没有 讲 过 的 ,但 是 他 的 思想 我 们 可 是 早 在 高 中 一 年 
级 的 时 候 物理 课 上 就 学 过 的 ， 只 是 我 们 没 意 识 到 。 

回忆 一 下 ， 还 记得 高 中 的 时 候 学 过 一 个 用 打点 计时 器 计算 重力 加 速度 g 的 大 小 的 实 
验 吗 ? 

将 一 个 小 铁 球 用 一 根 线 挫 在 一 个 很 轻 的 小 车 上 ， 小 车 后 面 拉 着 一 根 长 长 的 有 毫米 刻度 
的 纸 带 ， 一 个 打点 计时 器 一 边 电源 接着 220 V 50 Hz 的 市 电 ， 有 一 根 圆珠笔 尖 悬 在 纸 带 上 
方 ， 如 图 8-19 所 示 。 

电磁 打点 
细 线 DE agp 计时 器 





图 8-1 用 打点 计时 器 计算 重力 加 速度 


当 接 通 电源 后 ， 小 铁 球 由 于 重力 作用 开始 做 自由 落体 的 运动 ， 同 时 拉 着 小 车 越 跑 越 快 ， 
后 面 纸 带 上 圆珠笔 尖 会 以 每 秒 SO 次 的 速度 不 停 打 点 ， 这 样 在 纸 带 上 留 下 许多 的 点 ， 每 个 点 
之 间 的 距离 会 越 来 越 大 ， 每 个 相 邻 点 之 间 的 打点 时 间 差 为 0.02 s， 如 图 8-29Bpm. 








图 8-2 打出 的 点 


这 个 实验 的 先决 条 件 是 牛顿 第 二 定律 : 

F=ma 
F JEVMASE SUPR TEN, m 是 物体 的 质量 , a 是 产生 的 加 速度 。 由 于 在 重力 的 作用 下 ， 

所 以 

G-mg 
G 是 物体 所 受 重 力 ，m 是 物体 质量 ，g 是 重力 加 速度 ， 也 就 是 要 求 的 值 。 
我 们 现在 手 里 得 到 什么 了 ? 是 一 个 位 移 的 记录 ， 即 纸 带 。 
在 处 理 数据 的 时 候 我 们 用 了 一 个 技巧 ， 即 计算 每 个 点 之 间 的 间隔 

Asp: AS A5 AS. 

So 就 是 t FIL 两 个 时 刻 所 打点 的 位 移 差 距 。 


日 ”图 片 来 源 于 百度 图 库 。 
日” 图片 来 源 于 百度 图 库 
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位 移 s 和 时 间 上 的 关系 是 什么 呢 ? 我 们 都 知道 
S—vyt 
速度 乘 以 时 间 就 是 位 移 ， 比 如 我 骑 自 行车 一 秒 钟 跑 10 米 ， 那 10 秒 钟 就 跑 100 2K,. 3x 
个 对 于 匀速 运动 肯定 没 错 。 
v-f(t) 示意 图 如 图 8-3 所 示 ， 横 坐标 轴 为 :， 纵 坐标 轴 为 v。 当 然 只 有 +t 大 于 0 的 部 分 是 
有 意义 的 ， 如 果 想 知道 当世 30 时 ，s 为 多 少 ， 只 需要 在 C30 的 位 置 把 这 个 图 形 切 开 , Kt 
为 从 0 到 30， v-10 的 长 方形 面积 即 可 (s=vt) 














图 8-3 匀速 直线 运动 
如 果 运 动 速度 是 不 均匀 的 怎么 办 呢 ? 可 以 用 积分 的 方法 : 
= |v) -dt 


其 中 v(D 是 一 个 vA 的 函数 ， 是 一 个 变化 的 v 和 对 应 时 间 t 的 关系 ， 后面 的 dt 是 At 
的 概念 ， 也 会 有 人 习惯 地 写成 这 种 形式 : 
s(t)- f v(x)-dx 


整个 积分 式 的 含义 就 是 位 移 s 是 一 个 随 着 1 变化 的 函 
数 ， 而 整个 过 程 中 s 是 由 这 一 刻 瞬间 的 速度 vA 和 瞬间 的 时 
HKEE dt (At) 相 乘 而 来 的 。 听 起 来 好 像 是 所 有 的 值 都 在 变 
化 很 难 把 握 ， 读 者 先 别 慌 神 ， 往 下 看 。 

在 这 里 先 讲 一 个 小 故事 . 

德国 著名 的 教学 家 、 物 理学 家 波恩 哈 德 . 歼 曼 图 8-49 
发 明了 一 种 很 有 名 的 丈量 方法 一 一 “ 黎 曼 和 ”。 这 个 思想 很 
简单 ， 大 概 如 下 。 

要 求 orate 怎么 办 ? 

把 它 划 分 成 很 多 小 长 方形 ， 每 个 小 长 方形 的 面积 都 可 以 图 8-4 ”波恩 喻 德 . 黎 曼 





O ”图片 来 源 于 百度 图 库 
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比较 容易 用 长 乘 以 宽 的 方式 求 出 来 ， 然 后 再 加 到 一 起 ， 就 能 算出 整个 不 规则 土地 的 面积 了 。 
这 里 有 误差 怎么 办 ? 可 以 尽量 把 长 方形 画 窄 一 些 ， 越 窄 ， 面 积 和 越 逼 近 “ 真 实 ” 的 土地 面 
积 ， 只 要 这 个 误差 到 达 人 允许 的 范围 内 ， 那 这 个 面积 和 基本 就 是 所 要 求 的 面积 ， 如 图 8-5 所 
示 。 这 个 方法 可 不 土 ， 人 家 实际 上 用 的 可 是 正经 是 微 积分 的 思想 哟 。 





图 8-5 黎 曼 和 示意 图 


再 回 到 刚刚 的 问题 s=vt+， 这 其 实 也 是 一 个 面积 公式 ,1 是 宽度 ,v 是 高 度 ， 只 是 v 这 个 
高 度 是 变化 的 。 匀 速 的 时 候 ” 是 一 个 定 值 ， 算 出 来 是 一 个 长 方形 面积 ， 这 就 是 一 个 黎 曼 和 
求 和 的 过 程 。 

另外 ， 有 公式 

v=votet 


其 中 由 于 一 开始 小 球 和 车 是 静止 的 ， 所 以 v=0 是 知道 的 。 那 么 
v=gt 
Aor, MEA 


1 un 
Ss =— gt 
PL 


这 样 求 位 移 的 方法 成 了 求 三 角形 面积 的 方法 了 。 如 图 8-6 所 示 , 10s, 20s, 30s, 40s, 
50s 时 所 产生 的 位 移 就 是 此 时 的 1 刻度 纵 线 与 1 轴 以 及 函数 曲线 v=votgt 所 围 成 的 面积 。 
图 8-6 所 为 v=votgt 函数 图 线 ， 当 然 ， 也 只 是 1 大 于 零 的 部 分 才 有 效 。 
A so=s1—so 
=(1/2) x g x (vitt) x tj,7(1/2) x g x (tet) X ta 
=(1/2) x g x (tj/—t,) 
-(1/2) x g x (ti+to)(tı—to) 
=(1/2) xg x At x (titt 
其 中 At 就 是 0.02 s， 指 的 是 每 次 打点 的 间隔 。 
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图 8-6 v-wtgt 函数 图 线 


以 此 类 推 
A 5,785—5, 
=(1/2) x g x At x (t,t+t) 
A $5784—55 
=(1/2) xg x At x (ty) 


A 5,75,4—5, 
-(1/2) x g x At x (tut) 
也 就 是 说 ， 每 两 个 临近 的 点 之 间 的 距离 都 可 以 用 这 个 公式 来 套 算 ， 因 为 这 个 公式 本 身 
就 是 计算 位 移 差 的 公式 。 
如 果 把 临近 的 位 移 差 做 减法 会 得 到 什么 呢 ? 
Asi—Aso=(1/2)x gx Atx(ttt)— (1/22 x g x Atx (titto) 
=(1/2)xg x Atx (t,— to) 
=gAr 
As—As=(l/2)xex Atx (Lth) (1/2) x 2x Atx(tyt) 
-(1/2)xg x Atx (t— tj) 
=gAr 
所 有 临近 的 两 个 点 之 间 的 距离 之 差 为 一 个 确定 的 数字 ， 就 是 gAr?*，g 和 At 都 是 定 值 ， 
只 是 现在 还 假装 不 知道 g 的 具体 大 小 。 那 下 面 也 就 更 好 办 了 ， 把 每 个 临近 的 距离 差 都 列 出 
来 ,平均 一 下 就 能 得 到 g At 的 大 小 ， 再 除 以 At， 就 可 以 得 到 g。 
请 注意 ， 这 个 例子 和 教科 书 上 讲 的 用 “ 逐 差 法 ” 求 加 速度 的 细节 有 点 区 别 ， 教 科 书 上 
是 把 临近 的 6 个 点 的 差 作为 一 个 单位 求 差 的 ， 这 主要 是 为 了 尽 可 能 减 小 误差 。 
还 可 以 用 v-t 图 法 进行 绘图 。 有 有 瞬时 速度 公式 
y=votgt=gt 
Vi 一 St 
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尝试 一 下 能 不 能 从 最 直观 量 取 到 的 位 移 s 的 差 值得 到 和 vw 有关 的 公式 描述 : 
AsitAso=(1/2)xgx Atx(t;ttj)* (1/2)xg x Atx (titto) 
=(1/2)xgx Atx (tttittitto) 
—(12)xgx Atx (Af Hrt Hth- At) 
=(1/2)xgx4x Atxt, 
—2xgx Atxt, 
类 推 一 下 : 
AstAs, 72XgX AtXt, 
(As, As, ))2At-gXt,-v, 
X HL v, BIRRE nA 0.02 s 的 瞬时 速度 可 以 直接 通过 测量 位 移 差 求 出 来 ， 从 v, 
上 是 可 以 直接 得 到 和 wv 的 对 应 关系 的 。 如 图 8-7°9 所 示 ， 在 坐标 纸 上 面 一 条 直线 穿 过 这 


些 点 。 
=W O 


Velocity (m/sec) 





0 
t5 2 2.5 3 3.5 4 4.5 5 
Time (sec) 


图 8-7 v 和 1 的 关系 示意 图 
图 8-7 中 的 散 点 用 一 条 直线 连接 ， 就 可 以 得 到 一 个 比较 粗糙 的 v=gt 的 函数 ， 斜 率 就 是 
8g， 直接 测量 即 可 得 出 。 
这 种 从 大 量 的 函数 结果 和 自 变量 反 推 回 函 数 表达 式 的 过 程 就 是 回归 。 刚 才 用 的 是 划 线 
穿 点 的 方法 来 求 一 个 粗略 的 v=gt。 这 种 思路 本 身 就 是 使 用 线性 回归 的 方法 。 
假设 最 后 得 到 的 数值 如 表 8-1 所 示 。 


O 图 片 来 源 于 百度 图 库 
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试 着 用 Python 编程 ， 用 线性 回归 的 方法 实现 这 个 例子 : 


import numpy as np 
import matplotlib.pyplot as plt 


# 原始 数据 
i PE. 2; 3; 4, 5S, 5; Y, B, 81 
Y s [0.199, 0.389, 0.580, 0.783, 0.980, 1.177, 1.380, 1.575, 1.771] 


A - np.vstack([x, np.ones(len(x))]).T 
# A: 

SII 1. 42.] 
dx Il 
$13. £z. 
d [4. t] 
$ Is. I] 
# [ 6. 1.] 
3 LT tl 
$ Ls. 7.] 
# LO. all 


# 调用 最 小 二 乘法 函数 
a, b = np.linalg.lstsq(A, y) [0] 


4 转换 成 numpy array 
x = np.array (x) 
y = np.array(y) 


# 画图 

plt.plot(x, y, 'o', label-'Original data', markersize-10) 
plt.plot(x, a * x + b, 'r', label-'Fitted line') 
plt.show() 


画 出 的 图 形 如 图 8-8 所 示 。 
回归 在 数据 挖掘 算 法 里 也 有 着 举足轻重 的 地 位 ， 在 R 语言 里 ， 在 Mahout 等 开源 数据 挖 


掘 框架 里 都 有 比较 好 的 支持 。 如 果 读 者 有 兴趣 ， 可 以 再 找 R 语言 的 环境 或 者 Mahout 做 一 下 
实验 。 


刚刚 在 打点 计时 器 的 实验 里 用 直线 穿 过 众多 散 点 的 方式 可 以 得 到 一 个 比较 粗糙 的 v=gt 


的 函数 。 说 它 粗糙 的 原因 很 简单 ， 因 为 这 条 线 是 根据 打点 记录 的 位 移 来 画 的 ， 小 车 轮子 是 
和 否 光 滑 ， 小 车 自重 是 不 是 比较 大 ， 市 电 是 不 是 标准 的 50 Hz， 以 及 空气 阻力 大 小 如 何等 因素 
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都 会 影响 打点 的 准确 性 。 这 些 因 素 也 会 导致 n 和 vw 的 比率 在 每 个 打点 瞬间 记录 的 不 稳定 ， 
或 比 理想 值 大 或 比 理想 值 小 。 而 且 在 画 这 条 直线 穿 过 这 些 点 时 也 可 能 会 画 不 准 ， 可 能 会 有 
几 种 画 法 ， 每 种 画 法 在 手法 上 略 有 偏差 而 画 出 来 都 能 从 中 间 穿 过 去 ， 且 都 不 能 算 错 。 不 只 
在 这 个 例子 里 ， 再 换 任何 一 个 场景 ， 通 过 统计 或 实验 产生 的 这 样 一 组 对 应 关系 同样 都 会 有 
类 似 的 问题 。 


© @ Original data 
Fitted line 





TH 5 3 4 5 6 7 8 9 
图 8-8 画 出 的 图 形 


这 种 把 平面 上 一 系列 的 点 用 一 条 光滑 的 曲线 连接 起 来 的 过 程 就 叫做 拟 合 一 一 刚刚 用 一 
条 函数 曲线 v=gt 来 进行 了 拟 合 。 而 多 种 拟 合 方法 究竟 哪 一 种 画 法 最 科学 呢 ?” 下 面 将 介绍 分 
析 的 方法 ， 即 残 差 分 析 。 


8.8 JEJE 


刚刚 已 经 尝试 着 做 过 拟 合 这 个 过 程 了 ， 在 前 面 提 到 过 ， 在 线性 回归 中 希望 最 终 得 到 一 
个 函数 天 cx+p+e 来 表示 和 xz 的 关系 。 

从 前 面 的 打点 计时 器 的 例子 来 看 ， 从 理论 上 推定 v=gt， 而 在 实验 中 产生 的 其 实 是 一 个 
不 太 准 确 的 函数 v=gtte， 这 里 面 没 有 b (v) 这 一 项 是 因为 v, 是 0。 那 问题 就 转化 为 ,，g 究 
竟 取 多 少 才能 让 e 最 小 呢 ? 这 个 过 程 就 是 残 差分 析 ， 而 最 终 得 到 的 结果 就 是 要 计算 出 一 个 
g, (EIF e 为 误差 服从 均值 为 0 的 正 态 分 布 。 定 性 地 说 就 是 在 拟 合 的 过 程 中 ， 每 一 个 点 所 产 
生 的 误差 e 大 部 分 在 0 附近 ， 而 越 远 离 0 误差 的 e 越 少 越 好 。 

有 一 种 非常 经 典 的 用 来 进行 线性 回归 中 的 系数 猜测 的 方法 
对 于 没有 学 过 微 积分 的 读者 可 能 会 比较 复杂 ， 下 面 只 简单 介绍 原理 。 





最 小 二 乘法 。 推 导 过 程 
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假设 有 多 个 x 和 yy 的 样本 值 ， 同 时 尝试 用 y=axtb+te 来 拟 合 ， 可 以 得 到 
lel=|lax+b—y| 

也 就 是 说 误差 大 小 其 实 是 猜想 的 ax+b 的 值 和 观测 到 的 y 值 之 间 的 差 值 。 试 着 把 所 有 的 

jel 都 求 和 。 构 造 一 个 函数 : 
Q- Y (ax *b- y 

Q 指 根据 每 一 组 样本 里 的 x 拟 合 得 到 的 y (也 就 是 ax+b) 和 观察 到 的 样本 里 的 y 都 做 一 
个 差 ， 把 差 平方 后 求 和 。0 就 是 每 一 个 |e] 的 和 ， 现 在 的 问题 转化 为 让 a 和 4 分别 等 于 什么 
值 时 O 最 小 (也 就 是 所 有 的 Jel 的 加 和 最 小 )。 

即 


o 
Oa 


o 
ôb 
这 两 个 表达 式 的 数学 含义 是 ，0 是 一 个 a 和 4b 作为 自 变 量 的 二 元 函数 ，Q 分 别 对 a 和 4b 
求 偏 微分 ， 满 足 每 个 偏 微分 方程 为 0 B a. b 变量 的 值 就 是 要 找 的 值 。 
如 二 元 一 次 方程 组 


y=ax +bxtc 


i (2) mt 
TU 2a 4a? 
y 的 极 值 为 x—b/2a 时 的 值 。 


这 里 面 其 实 没 有 用 到 高 等 数学 里 求 导数 的 概念 ， 只 是 用 了 算数 平方 和 大 于 等 于 零 的 性 
质 来 确定 极 值 的 位 置 ， 当 平方 项 为 0 时 , y 一定 是 极 值 ， 有 
_ 4ac - b 
im 4a? 


经 过 变换 ， 





PO 表示 函数 O 对 自 变量 上 求 导 ， 它 的 结果 又 是 一 个 函数 ， 而 这 个 新 函数 称 为 导 函 数 ， 


简称 导数 。 一 般 来 说 ， 导 数 里 面 还 是 会 由 a 作为 自 变量 的 ， 而 导数 的 函数 值 就 是 O 这 个 函 
数 在 a 点 上 的 切线 斜率 (本 例 不 考虑 不 可 导 的 情况 )。 可 以 想象 ，2 是 一 个 曲线 函数 ， 既 然 
是 曲线 ， 在 每 个 点 上 就 有 切线 ， 让 切线 随 着 O 函数 的 曲线 滑动 ， 切 线 的 斜率 也 会 跟着 变化 ， 


py -p 
而 O 函数 的 极 值 应 该 在 切线 斜率 为 0 外， 如 »- (4) C anmenm 
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位 置 。 切 线 应 该 是 一 条 水 平 线 。 

如 图 8-9 PTR, AB 直线 从 左 向 右 紧 贴 着 y=x 曲线 滑动 ， 让 切 点 一 直 沿 着 y=x 曲线 从 
小 到 大 变化 。 其 中 切线 斜率 为 0 的 地 方 恰好 是 y-0 Cx fl) 的 位 置 。 二 维 空间 的 曲线 是 这 样 ， 
三 维 空间 的 切线 通常 是 沿 着 曲面 方 的 x 轴 和 yy 轴 的 方向 作 的 ， 如 图 8-10 所 示 为 =x 的 图 
像 ， 先 做 一 个 剖面 。 训 面 本身 也 会 形成 一 个 二 维 的 曲线 方程 ， 再 让 切线 沿 着 这 个 剖面 上 的 


二 维 曲线 方程 滑动 ， 找 到 斜率 为 0 的 地 方 。 这 也 就 是 EL PO ie EID ALT . 








图 8-9 求 曲 线 上 和 斜率 为 0 的 地 方 


"2-9, a %-o, 解 出 这 两 个 方程 之 后 就 能 分 别 找到 a 的 取 值 能 让 0 产生 


极 值 的 条 件 ， 以 及 2 的 取 值 能 让 C@ 产 生 极 值 的 条 件 ， 即 找到 了 a、2 两 个 维度 上 类 似 


An 





3 (2) est 中 函数 曲线 的 切线 为 0 的 情况 
y 2a 4a? ü JJ E 
分 别 求 导 后 : 


99 s Em 
> 722 Duane y)]-0 


00 Y 
—-2 ax,*b—y)20 
Ob 2 ») 


找 满足 上 式 的 a 和 4b 的 取 值 。Q8 是 一 个 误差 的 平方 科 ，a Mb 是 斜率 和 截 距 ， 现 在 要 能 
ww ai bbt. com tL EB B D B] 





找到 一 个 极 值 必定 是 一 个 使 2 最 小 的 极 值 。 证 明 略 ， 读 者 可 以 想像 用 直线 在 纸 上 穿 点 的 过 
程 ， 尊 小 慎 微 地 穿 能 找到 一 个 误差 最 小 的 点 ， 稍 微 偏 一 偏 这 个 误差 就 很 大 ， 而 且 越 偏 越 大 ， 
那么 这 个 大 的 极 值 点 是 不 存在 的 ， 小 的 极 值 点 是 存在 的 ， 也 就 是 要 求解 的 点 。 





^. " —10.0000 10.0000 
—63.1513 189.482 











图 8-10 z^? 的 图 像 ( 见 彩 搬 ) 


如 果实 在 不 知道 为 什么 求 信 微 分 会 得 到 < 攻 = 2 D (ax, «b RE = 2》 (ax, b y), 


那 就 先 园 回 吞 束 往 下 看 ， 只 要 还 记得 这 个 是 我 们 要 求 的 结果 ， 根 据 上 述 得 到 的 求 导 之 后 得 0 
的 两 个 等 式 可 以 把 公式 展开 推导 出 


ay， x? + bY y= Y»x 
tad i=l i=l 





Jie PO - ORO, fra 和 请 作 为 系数 所 出 去 之 后 的 结果 。 
同 理 
oQ : : ` 


XE CONST, 把 a 和 4b 作为 系数 提出 去 之 后 的 结果 。 
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这 样 得 到 一 个 方程 组 : 
ay x ebY x =F yx (1) 
aY x, + Nb - Y y, (2) 


JE (2) 式 做 如 下 处 理 : 
Yx 








o-o 
得 到 下 面 的 等 式 : 
n j Xi n n yx n 
a 2 pe -2% =E y^ -2* 
把 a 和 45 各 自 的 表达 式 推 导出 来 : 


n n 
Pp a 
i=l i=l 


-2 


n i=l 
a= n 
Y DA n 
= j= 2 
1 i=l x, 
n i=l 
n 
b» -a» x, 
b- izl - 
n 

















其 中 ，a 就 是 斜率 ，b ERE, 

上 式 中 ,把 所 有 的 观测 值 x* 和 yy 都 代入 ,就 可 以 得 出 a ; 再 把 观测 值 和 已 经 求 出 的 a 代 
和 下 式 ， 就 可 以 相应 得 出 b。 

在 Python 中 ,我 们 可 以 直接 使 用 最 小 二 乘法 进行 线性 拟 合 。 例 如 : 


import numpy as np 
import matplotlib.pyplot as plt 


# 原始 数据 
x s [1.253,4,5,6,7,8,9] 
y - [0.199, 0.389, 0.580, 0.783, 0.980, 1.177, 1.380, 1.575, 1.771] 


ti = t2 =t3 =t4= 0 
n = len(x) 
for i in range(n): 
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tl += y[i] # 二 Y 
t2 += x[i] HLX 
t3 += x[i]*y[i] # X xy 
t4 += x[i]**2 #rx^2 


a = (tl*t2/n - t3) / (t2*t2/n - t4) 
b = (tl - a*t2) / n 


np.array (x) 


x = 
y = np.array(y) 


# 画图 

plt.plot(x, y, 'o', label-'Original data', markersize-10) 
plt.plot(x, a*x + b, 'r', label-'Fitted line') 

plt.show() 


8.4 过 拟 合 


过 拟 合 简称 “过 拟 "”， 是 在 拟 合 过 程 中 出 现 的 一 种 “做 过 头 ”的 情况 。 

怎么 叫做 过 头 呢 ? 我 们 通过 对 数据 样本 的 观察 和 抽象 ， 最 后 归纳 得 到 一 个 完整 的 数据 
映射 模型 。 但 是 在 归纳 的 过 程 中 ， 可 能 为 了 迎合 所 有 样本 向 量 点 甚至 是 噪声 点 而 使 得 模型 
描述 过 于 复杂 。 

过 度 拟 合 的 危害 有 以 下 几 点 。 

(1) 描述 复杂 。 所 有 的 过 度 拟 合 的 模型 都 有 一 个 共同 点 ， 那 就 是 模型 的 描述 非常 复 、 
SREZ, WARES, 

(2) 失去 谤 化 能 力 。 所 谓 泛 化 能 力 就 是 通过 学 习 《〈 或 机 器 学 习 ) 得 到 的 模型 对 未 知 数据 
的 预测 能 力 ， 即 应 用 于 其 他 非 训 练 样本 的 向 量 时 的 分 类 能 力 。 对 于 待 分 类 样本 向 量 分 类 正 
确 度 高 ， 表 示 泛 化 能 力 比较 好 ; 反之 ， 如 果 对 于 待 分 类 样本 向 量 分 类 正确 度 低 ， 则 表示 泛 





2 


化 能 力 较 差 。 
我 们 通常 希望 模型 的 泛 化 能 力 是 比较 好 的 ， 因 为 没有 泛 化 能 力 的 模型 对 于 生产 指导 基 
本 没有 什么 意义 。 





造成 过 拟 合 的 原因 比较 多 ， 最 常见 的 是 以 下 两 种 。 

C1) 训练 样本 太 少 。 对 于 训练 样本 过 少 的 情况 ,通常 都 会 归纳 出 一 个 非常 不 准确 的 模 
型 。 例 如 ， 要 通过 样本 统计 的 方式 来 进行 疾病 成 因 总 结 ， 只 有 一 个 病例 时 ， 这 一 个 病例 自 
身 的 个 案 特 点 很 可 能 会 被 当成 通用 性 的 特点 ， 这 样 总 结 出 来 的 模型 显然 没有 泛 化 能 力 。 而 
样本 多 时 就 可 以 通过 统计 分 析 保 留 那些 共性 较 多 的 特点 ， 而 共性 较 少 的 特点 就 是 我 们 所 说 
的 噪声 一 一 就 不 会 被 当做 分 类 参数 。 

(2) 力求 “完美 ” 。 对 于 所 有 的 训练 样本 向 量 点 都 希望 用 拟 合 的 模型 上 覆盖， 但 是 实际 上 
的 训练 样本 却 有 很 多 是 带 有 噪声 的 。 这 里 说 的 噪声 不 是 指 刺耳 的 破坏 心情 的 声响 ， 而 是 在 
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收集 到 的 训练 数据 中 由 于 各 种 原因 导致 的 与 预期 分 类 不 一 致 的 样本 向 量 。 
如 上 述 打点 过 程 中 ， 小 车 轮子 的 摩擦 不 均匀 ， 纸 张 粗糙 程度 不 同 ， 导 致 某 些 点 打出 来 
比 理想 时 间 要 晚 ， 或 比 理想 时 间 要 早 ， 当 偏差 比 我 们 预期 大 很 多 时 就 可 以 认为 该 点 是 噪声 
EI. 
再 如 ， 如 果 想 测量 两 地 之 间 的 平均 行车 时 间 ， 选 100 辆 汽车 加 装 计 时 设备 进行 测试 ， 
所 有 车 辆 从 A 地 出 发 前 往 B 地 。 其 中 97 辆 车 计时 设备 读数 都 是 20 — 22 分 钟 ， 有 1 辆 车 
由 于 超速 行驶 计时 设备 读数 为 15 分 钟 ， 有 1 辆 车 由 于 车 辆 故障 中 途 抛锚 计时 设备 读数 300 
分 钟 ， 有 1 辆 车 由 于 忘记 开启 计时 器 计时 设备 读数 0 分 钟 。 在 这 个 例子 中 ， 基 本 可 以 判断 
A 地 到 B 地 行车 时 间 为 21 分 钟 左右 ， 而 后 面 的 3 个 数据 : 15 分 钟 、300 分 钟 和 0 分钟 就 是 
典型 的 噪声 数据 了 ， 完 全 可 以 在 建 模 的 过 程 中 舍弃 。 
如 果 穷 尽 所 有 的 办 法 都 没 办 法 舍弃 这 些 品 声 点 而 又 力求 让 模型 描述 覆盖 这 些 点 ， 那 将 
是 非常 可 怕 的 ， 归 纳 出 来 的 模型 会 产生 很 大 的 偏差 。 
在 上 述 残 差分 析 中 ， 尝 试 着 将 误差 e 这 个 部 分 做 成 一 个 以 0 为 中 心 的 正 态 分 布 。 如 果 
希望 这 个 正 态 分 布 中 o 小 一 些 ， 其 至 为 0。 在 这 个 过 程 中 会 出 现 什么 现象 ? 
首先 ， 在 分 析 的 过 程 中 已 经 尝试 着 用 最 小 二 乘法 确定 系数 ， 这 种 情况 已 经 比 胡 乱 确 定 
任何 一 个 系数 要 合理 得 多 ， 因 为 大 部 分 情况 下 误差 都 很 小 。 
误差 为 0 的 这 种 极限 是 什么 呢 ?” 其 实 是 类 似 分 段 函数 ， 以 上 述 打点 计时 器 为 例 : 
v,=0.078, n-1 
v,-0.100, n-2 
v,70.118, n=3 


v,-0.290, n=12 

CRURA VR E] UP EE BE JUS TREE EE fS IL HJ B fp d RI. 况且，v=gt 并 不 是 一 个 离散 函 
数 ,上 是 一 个 在 非 负 实数 上 连续 的 自 变 量 ， 难 道 有 任何 办 法 罗列 出 所 有 的 值 吗 ? 当然 不 可 能 ， 
甚至 连 实验 得 到 的 数据 内 容 都 是 有 限 的 。 

在 多 元 线性 回归 的 过 程 中 也 会 有 类 似 的 情况 ， 在 为 了 使 得 误差 尽 可 能 小 的 过 程 中 ,会 
同时 使 得 函数 的 描述 变 得 过 于 复杂 ， 以 至 于 大 大 提高 使 用 成 本 ， 那 么 这 种 减 小 误差 的 行为 
其 实 是 得 不 偿 失 的 。 

所 有 这 种 使 得 函数 的 描述 变 得 过 于 复杂 ， 或 者 参数 过 于 繁多 ,或 者 由 于 训练 样本 的 问 
题 导致 函数 失去 泛 化 特性 的 拟 合 过 程 都 叫做 过 度 拟 合 (Overfitting ) 。 


8.5 KWA 


与 过 度 拟 合 相反 ， 还 有 一 种 现象 叫做 欠 拟 合 ， 简 称 欠 拟 。 
欠 拟 顾名思义 ， 就 是 由 于 操作 不 当 一 一 也 可 以 说 建 模 不 当 产 生 的 误差 e 分布 太 散 或 者 
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-o 这 种 情况 下 ， 通 常 体现 出 来 的 都 是 在 线性 回归 中 的 因素 考虑 不 足 的 情况 ， 
见 的 原因 有 以 下 两 种 。 

(1 ) 参数 过 少 。 对 于 训练 样本 向 量 的 维度 提取 太 少 会 导致 模型 描述 的 不 准确 。 

例如 ， 要 根据 银行 储户 的 信息 来 判断 其 信誉 好 或 不 好 ， 通 常 需要 综合 考虑 用 户 的 年 龄 、 
流水 总 和 、 上 账户 余额 、 借 贷 频次 、 借 贷 额 度 、 归 还 准时 程度 等 信息 特征 。 这 些 因素 考虑 得 
越 充分 ， 通 常 对 于 用 户 的 信誉 好 或 不 好 ， 给 予 的 信用 额度 多 少 为 宜 就 会 有 比较 可 靠 的 预测 
程度 。 而 如 果 参 数 太 少 ， 如 只 有 账户 余额 一 项 ， 那 么 就 不 得 不 用 账户 余额 一 个 参数 和 信誉 
好 坏 去 建立 一 个 模型 映射 关系 。 这 个 模型 是 很 不 科学 的 ， 通 过 一 个 余额 的 数字 就 能 断言 一 
个 人 信誉 几何 太 过 武断 。 

(2) 拟 合 不 当 。 拟 合 不 当 的 原因 比较 复杂 ， 通 常 是 拟 合 方法 不 正确 造成 的 。 

例如 ， 某 个 训练 样本 向 量 * 与 结果 值 y 之 间 的 关系 如 下 : 

(1,1) 

(1.41,2) 

(1.7,3) 

(2.1,4) 

形成 这 4 组 向 量 以 后 ， 用 y=x 在 第 一 象限 的 曲线 去 拟 合 误差 更 小 。 而 如 果 用 图 8-11 所 
示 的 直线 y-3.732x-2.932 做 拟 合 ， 显 然 都 没有 y=x 的 误差 小 。 











图 8-11 用 直线 y-3.732x-2.932 拟 合 


几 是 在 欠 拟 合 时 ， 都 要 重新 考虑 建 模 是 不 是 有 考虑 欠缺 的 地 方 。 因 为 误差 太 大 以 至 于 
拟 合 函数 没有 泛 化 能 力 而 失去 指导 意义 ， 这 与 没有 做 拟 合 差 不 多 。 


8.6 ”曲线 拟 合 转化 为 线性 拟 合 


非 线 性 回归 的 情况 太 过 复杂 ， 在 生产 实践 中 也 尽量 避免 使 用 这 种 模型 。 好 在 分 类 算法 
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有 很 多 ， 而 且 更 多 的 是 为 了 处 理 半 结构 化 数据 ， 所 以 非 线 性 回归 相关 的 内 容 只 做 一 般 性 了 
解 即 可 。 

非 线 性 回归 一 般 可 以 分 为 一 元 非 线 性 回归 和 多 元 非 线性 回归 。 

一 元 非 线 性 回归 是 指 两 个 变量 一 一 一 个 自 变量 ,一 个 因 变 量 之 间 呈 现 非 线 性 关系 ， 如 
双 曲 线 、 二 次 曲线 、 三 (多 ) 次 曲线 、 才 曲线 、 指 数 曲 线 、 对 数 曲 线 等 。 在 解决 这 些 问 题 时 
通常 建立 的 是 非 线性 回归 方程 或 者 方程 组 。 

多 元 非 线性 回归 分 析 是 指 两 个 或 两 个 以 上 自 变 量 和 因 变 量 之 间 呈 现 的 非 线性 关系 建立 
非 线性 回归 模型 。 对 多 元 非 线性 回归 模型 求解 的 传统 做 法 ， 仍 然 是 想 办 法 把 它 转化 成 标准 
的 线性 形式 的 多 元 回归 模型 来 处 理 。 有 些 非 线性 回归 模型 ， 经 过 适当 的 数学 变换 ， 便 能 得 
到 它 的 线性 化 的 表达 形式 ， 但 对 另外 一 些 非 线性 回归 模型 ， 仅 仅 做 变量 变换 根本 无 济 于 事 。 
属于 前 一 种 情况 的 非 线 性 回归 模型 一 般 称 为 内 蕴 的 线性 回归 ， 而 后 者 则 称 之 为 内 蕴 的 非 线 
性 回归 。 

线性 拟 合 里 最 简单 的 就 是 上 述 y=ax+b 这 种 形式 。 除 此 之 外 ， 可 以 将 等 式 两 边 转 化 为 几 
个 一 次 式 加 和 的 情况 ,不论 是 一 元 的 还 是 多 元 的 ， 都 仍然 是 线性 回归 研究 的 范畴 。 再 如 

20 世纪 60 年 代 的 世界 人 口 状况 如 表 8-2 所 示 。 

表 8-2 20 世纪 60 年 代 世 界 人 口 状况 
世界 人 口 ( 亿 ) ERAD ( 亿 ) 











根据 马尔 萨 斯 人 口 模型 : 
s-a : e” 
其 中 s 是 人口 ，t 是 年 份 ,e。 是 自然 常数 ( 约 取 2.718 28 )， 试 着 推导 一 下 到 2030 年 时 志 
界 人 口 的 数量 。 这 个 问题 是 一 个 比较 典型 的 多 元 线性 回归 的 问题 模型 。 求 解 如 下 。 
对 等 式 两 边 同 时 取 In. (以 e 为 底 的 log)， 得 到 
In s=pft+ln a 
在 这 里 实际 上 用 的 还 是 线性 回归 模型 ， 相 当 于 


y=ax+b 


In s=y 
f-a 
In a=b 
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这 种 使 用 方式 在 Python 中 同样 可 以 套用 线性 回归 的 方法 ， 代 码 如 下 : 


import numpy as np 
from scipy.optimize import curve fit 
import matplotlib.pyplot as plt 


# 原始 数据 
T = [1960, 1961, 1962, 1963, 1964, 1965, 1966, 1967, 1968] 
S = [29.72, 30.61, 31.51, 32.13; 32.34, 32.85, 33.56, 34,20, 34.83] 


xdata = np.array (T) 
ydata = np.log(np.array(S)) 


def func(x, a, b): 
return a 十 b*x 


# 使 用 非 线 性 最 小 二 乘法 拟 合 函数 


popt, pcov = curve fit (func, xdata, ydata) 


# 画图 

plt.plot (xdata, ydata, 'ko', label-"Original Noised Data") 
plt.plot(xdata, func(xdata, *popt), 'r', label-"Fitted Curve") 
plt.show() 


如 图 8-12 所 示 ， 横 轴 写 着 +1.96e3 ， 这 是 用 科学 记 数 法 来 表示 的 ， 意 思 为 1.96 x 107, 
也 就 是 1 960， 横 轴 上 的 点 就 是 1 960 一 1 968。 纵 轴 是 In s E, RAE pE, REE 
In a 的 值 ， 计 算 完成 后 通过 代 换 可 以 计算 出 8 和 a 的 值 。 


e eOriginal Noised Data 
—— Fitted Curve 





十 1.96e3 
图 8-12 线性 回归 函数 图 形 
在 这 个 例子 中 ， 最 后 可 以 得 到 p=0.0185 9, a=4.484 013 958 667 16x10" 
代 人 公式 sca * e”, cR s 的 值 ， 单 位 是 亿 。 
在 预测 人 口 数量 时 ， 直 接 把 年 份 代入 即 可 ， 如 2000 年 时 ， 代 入 公 址 得 到 xs 24g 
62.9 亿 。 
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关于 马尔 萨 斯 人 口 模型 公式 s-a * A 有 一 个 需要 注意 的 地 方 ， 即 预测 近期 的 人 口 数 据 
基本 准确 ， 如 2000 年 的 人 口 ， 使 用 这 个 模型 预测 出 来 是 62.9 亿 ， 真 实 的 统计 数据 为 61.02 
亿 ， 误差 不 到 3.1%， 还 是 一 个 相对 比较 精确 的 模型 。 但 是 代入 更 大 的 数字 就 会 出 现 问题 ， 
如 代入 4 000 这 个 数字 ， 算 出 来 大 约 88 263 万 亿 ， 这 个 数字 是 不 可 信和 的 ， 因 为 公元 4000 年 
的 时 候 世 界 人 口 数量 增 大 至 现在 的 1 200 多 万 倍 ， 按 照 地 球 陆地 面积 1.49 亿 平 方 千 米 计算 ， 
平均 每 平方 米 上 有 59 个 人 而 且 不 管 是 高 山峡 谷 沼泽 森林 统统 都 算 在 内 。 这 种 现象 可 不 
是 这 一 个 例子 里 所 特有 的 ， 所 有 的 由 统计 而 来 的 回归 方程 在 自 变量 很 大 或 者 很 小 时 都 容易 
发 生 失 真 。 所 以 回归 这 种 模型 只 能 用 来 预测 和 自 变量 统计 的 区 间 比 较 近 的 自 变量 对 应 的 函 
数值 。 


8. 小 结 


从 机 器 学 习 的 角度 来 说 ， 回 归 算 法 应 该 算 作 “分 类 ”算法 。 它 更 像 是 人 们 先 给 了 计算 
机 一 些 样本 ， 然 后 让 计算 机 根据 样本 计算 出 一 种 公式 或 者 模型 ， 而 在 公式 或 者 模型 成 立 后 ， 
人 们 再 给 这 个 模型 新 的 样本 ， 它 就 可 以 把 这 个 样本 猜测 或 者 说 推断 为 某 一 分 类 。 

不 同 的 是 ， 在 回归 中 研究 的 都 是 具体 的 数值 (实数 )， 而 分 类 算法 则 不 一 定 ， 它 的 样本 
除了 可 以 是 数值 外 ， 可 能 很 多 是 一 些 枚 举 值 或 者 文本 。 读 者 只 需要 从 这 个 角度 来 做 感性 上 
的 区 分 即 可 。 

在 使 用 回归 的 过 程 中 ， 要 注意 尽量 避免 出 现 过 拟 和 欠 拟 ， 让 函数 描述 在 简洁 和 精确 之 
间 找 一 个 平衡 ， 这 才 是 众多 从 统计 而 来 的 回归 过 程 最 后 落地 所 要 考虑 的 事情 。 过 拟 和 欠 拟 
不 仅 出 现在 回归 方法 中 ， 在 其 他 基于 样本 向 量 的 统计 归纳 的 模型 训练 中 都 有 这 样 的 问题 ， 
请 读者 一 定 要 注意 。 
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RÆ (Clustering) 指 的 是 一 种 学 习 方 式 (操作 方式 )， 即 把 物理 或 抽象 对 象 的 集合 分 组 
为 由 彼此 类 似 的 对 象 组 成 的 多 个 类 的 分 析 过 程 。 

聚 类 这 种 行为 我 们 不 要 觉得 很 神秘 ， 也 不 要 觉得 这 个 东西 是 机 器 学 习 所 独 有 的 ， 恰 恰 
相反 ， 聚 类 的 行为 本 源 还 是 人 自身 。 我 们 学 习 的 所 有 数据 挖掘 或 者 机 器 学 习 的 算法 或 者 思 
想 的 来 源 都 是 人 类 自己 的 思考 方式 ， 只 不 过 我 们 把 它 教 给 机 器 让 它们 代劳 ， 让 它们 成 为 我 
们 肢体 和 能 力 的 延伸 而 不 是 让 它们 替 我 们 创造 和 思考 。 

聚 类 是 一 种 什么 现象 呢 ? 我 们 在 认识 客观 世界 的 过 程 中 其 实 一 直 遇 到 容量 性 的 问题 ， 
遇 到 的 每 一 棵 树 、 每 一 朱 花 、 每 一 只 昆虫 、 每 一 头 动物 、 每 一 个 人 、 每 一 栋 建筑 …… 每 个 
个 体 之 间 其 实 都 不 同 ， 有 的 还 差距 相当 大 。 那 么 人 在 认 知 和 记忆 这 些 客观 事物 的 过 程 中 就 
会 异常 痛 苗 ， 因 为 量 实在 是 大 到 无 法 承受 的 地 步 。 

因此 人 类 才 会 在 “ 自 底 向 上 ”的 认识 世界 的 过 程 中 “偷懒 ` 性 地 选择 了 归纳 归 类 的 方式 ， 
注意 “偷懒 ”这 种 方式 是 人 类 与 生 俱 来 的 。 

我 们 在 小 时 候 被 父母 用 看 图 说 话 的 方式 来 教 嘱 呀 学 语 的 时 候 就 有 过 类 似 的 体会 了 ,图 
片上 画 了 一 只 猴子 ， 于 是 我 们 就 认识 了 ,这 是 一 只 猴子 ; 图 片上 画 了 一 辆 汽车 ， 于 是 我 们 
就 了 解 了 ， 这 是 一 辆 汽车 …… 我 们 上 街 或 者 去 动物 园 的 时 候 再 看 ， 猴 子 也 不 是 画 上 的 猴子 ， 
而 且 众多 儿子 也 长 得 各 式 各 样 ， 每 个 都 不 同 ， 我 们 会 把 他 们 当成 一 个 个 新 事物 去 认识 吗 ? 
我 们 看 汽车 也 同样 ， 大小、 颜色 、 样 式 ， 甚 至 是 喇叭 的 声音 也 是 形形色色 、 五 花 八 门 ， 它 
们 在 我 们 眼 里 是 一 个 个 新 的 事物 吗 ? 不 ,它们 都 还 是 汽车 。 这 些 事物 之 间 确 实 有 所 不 同 ， 
但 是 它们 对 我 们 的 认 知 带 来 了 很 大 的 困扰 吗 ? 并 没有 。 我 们 无 论 如 何 是 不 会 把 猴子 和 汽车 
当成 一 类 事物 去 认 知 的 ， 猴 子 彼此 之 间 是 不 同 ， 但 是 体格 、 毛 发 、 行 为 举止 ， 种 种 形态 让 
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我 们 认为 这 些 不 同 种 类 的 猴子 都 还 是 属于 猴子 这 一 个 大 类 的 动物 ， 更 别 说 是 和 汽车 混 为 一 
谈 ， 就 是 跟 狗 、 马 、 熊 这些 消 椎 动物 我 们 也 能 轻易 地 分 开 。 

人 类 天 生 具 备 这 种 归纳 和 总 结 的 能 力 ， 能 够 把 相似 的 事物 放 到 一 起 来 作为 一 类 事物 进 
行 认识 ， 它 们 之 间 可 以 有 彼此 的 不 同 ， 但 是 有 一 个 “限度 "， 只 要 在 这 个 限度 内 ， 特 征 稍 有 
区 别 无 关 大 但， 它们 仍然 是 这 一 类 事物 (图 9-1 )。 





图 9-1 人 类 的 归纳 和 总 结 能 力 


在 这 一 类 事物 的 内 部 ， 同 样 有 这 种 现象 ， 一 部 分 个 体 之 间 比 较 相 近 ， 而 另 一 部 分 个 体 
之 间 比 较 相 近 ， 这 两 部 分 个 体 彼此 之 间 能 够 被 明显 认 知 到 差别 ， 那 么 这 个 部 分 的 事物 又 会 
在 大 类 别 的 内 部 重新 划分 成 两 个 不 同 的 部 分 进行 认 知 。 如 汽车 从 样子 上 可 以 分 成 小 轿车 、 
卡车 、 面 包车 等 种 类 ， 虫 子 也 被 从 外 形 上 区 别 为 飞 虫 、 爬 虫 、 毛 毛虫 ……… 

在 没有 人 特意 教授 不 同 小 种 群 的 称谓 与 特性 之 前 ， 人 类 自然 具备 这 种 主观 的 认 知 能 力 ， 
以 特征 形态 的 相同 或 近似 将 它们 划 在 一 个 概念 下 ， 以 特征 形态 的 不 同 划 在 不 同 的 概念 下 ， 
这 本 身 就 是 聚 类 的 思维 方式 。 


9.1 K-Means 算法 


在 聚 类 中 K-Means 算法 是 很 常用 的 一 个 算法 ， 也 是 基于 向 量 距 离 来 做 聚 类 。 算 法 步 又 
如 下 。 
CIO 从 nn 个 向 量 对 象 任意 选择 个 向 量 作为 初始 聚 类 中 心 。 
(2) 根据 在 步骤 (1 ) 中 设置 的 个 向 量 (中 心 对 象 向 量 )， 计 算 每 个 对 象 与 这 k 个 中 心 
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对 象 各 自 的 距离 。 

(3) 对 于 步骤 (2) 中 的 计算 ,任何 一 个 向 量 与 这 个 向 量 都 有 一 个 距离 ， 有 的 远 有 的 
近 ， 把 这 个 向 量 和 距离 它 最 近 的 中 心 向 量 对 象 归 在 一 个 类 簇 中。 

(4) 重新 计算 每 个 类 簇 的 中 心 对 象 向 量 位 置 。 

(5) 重复 (3 ) (4 ) 两 个 步骤 ， 直 到 类 簇 聚 类 方案 中 的 向 量 归 类 变化 极 少 为 止 。 例 如 ,一 
次 迭代 后 ， 只 有 少 于 1% 的 向 量 还 在 发 生 类 簇 之 间 的 归 类 漂移 ， 那 么 就 可 以 认为 分 类 完成 。 

这 里 要 注意 的 是 : 

需要 事先 指定 类 簇 的 数量 。 

@) 需 要 事先 给 定 初 始 的 类 中 心 。 

例如 ， 先 准备 一 个 中 国 城市 经 纬度 表 ， 一共 604 个 向 量 ,， 这 4 个 维度 分 别 是 (省 ,市 ， 
北纬 ， 东 经 ): 


北京 市 ， 北 京 市 ,39.55,116.24 
福建 省 ， 福 州 ,26.05,119.18 
福建 省 ,长 乐 ,25.58,119.31 
福建 省 ,福安 ,27.06,119.39 
福建 省 ， 福 清 ,25.42,119.23 
福建 省 ， 建 咕 ,27.03,118.20 
福建 省 ， 建 阳 ,27.21,118.07 
福建 省 ， 晋 江 ,24.49,118.35 
福建 省 ， 龙 海 ,24.26,117.48 
福建 省 ,龙岩 ,25.06,117.01 
福建 省 ,南安 ,24 .57,118.23 
福建 省 ,南平 ,26.38,118.10 
福建 省 ,宁德 ,26.39,119.31 
福建 省 ， 莆 田 ,24.26,119.01 
福建 省 ,泉州 ,24.56,118.36 
福建 省 ,三明 ,26.13,117.36 
福建 省 ,邵武 ,27.20,117.29 
福建 省 ,石狮 ,24.44,118.38 
福建 省 ， 武夷山 ,27.46,118.02 
福建 省 ， 厦 门 ,24.27,118.06 
福建 省 ， 永 安 ,25.58,117.23 
福建 省 ， 漳 平 ,25.17,117.24 
浙江 省 ， 平 湖 ,30.42,121.01 
HLE, WM ,28.58,118.52 
浙江 省 ， 瑞 安 ,27.48,120.38 
A4, LE ,30.01,120.52 
浙江 省 ， 绍 兴 ,30.00,120.34 
浙江 省 ， 合 州 ,28.41,121..27 
浙江 省 ， 桐 乡 ,30.38,120.32 
浙江 省 ， 温 岭 ,28.22,121.21 
浙江 省 ， 温 州 ,28.01,120.39 
HLE, 36:10 ,30.09,120.16 
HLE, XB ,29.18,120.04 
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浙江 省 ， 乐 清 ,28.08,120.58 
浙江 省 ， 余 杭 ,30.26,120.18 
HLE , 4k ,30.02,121.10 
浙江 省 ， 永 康 ,29.54,120.01 
浙江 省 ,舟山 ,30.01,122.06 
浙江 省 ， 诸 县 ,29.43,120.14 
重庆 市 ， 重 庆 市 ，29.35,106.33 
重庆 市 ， 合 川 市 ,30.02,106.15 
重庆 市 ， 江 津 市 ,29.18,106.16 
重庆 市 ， 南 川 市 ，29.10,107.05 
重庆 市 ， 永 川 市 ，29.23,105.53 


把 它 保存 成 一 个 文本 文件 “city.txt” 以 备 后 面 实验 使 用 。 
使 用 K-Means 算法 的 代码 如 下 : 


#coding=utf-8 

import numpy as np 

import matplotlib.pyplot as plt 
from sklearn.cluster import KMeans 


# 从 磁盘 读 取 城市 经 纬度 数据 
X - [] 
f = open('city.txt') 
for v in £: 
X.append([float (v.split(',') [2]), float(v.split(',') [31])]) 


# 转换 成 numpy array 
X = np.array (X) 


# XR EC 


n clusters - 5 


# 现在 把 数据 和 对 应 的 分 类 数 放 入 聚 类 函数 中 进行 聚 类 


cls = KMeans (n clusters) .fit (X) 


#X 中 每 项 所 属 分 类 的 一 个 列表 


cls.labels 
# 画图 
markers = [Tra UU, dot, !* 0, 141] 
for i in range(n clusters): 
members - cls.labels -- i 
plt.scatter(X[members, 0], X[members, 1], s-60, marker-markers[i], c-'b', 
alpha-0.5) 
plt.title('t) 
plt.show() 


绘 出 的 图 形 如 图 9-2 所 示 。 
图 9-2 中 的 横 坐 标 表示 北纬 维度 ， 纵 坐标 表示 东经 维度 。 把 中 国 的 城市 划分 为 5 个 大 
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城市 区 域 ， 在 图 上 对 应 划分 出 东北 、 华 中 、 华 南 、 西 部 、 西 北 5 个 区 域 。 形 状 比较 奇怪 ， 
像 是 沿 着 左下 到 右上 的 对 角 线 “ 照 了 个 镜子 ”"， 西 北 跑 到 了 东南 ， 东 南 跑 到 了 西北 。 


140; r—— e —- - — 











130 x, x 
GC 
OE MEO X ns 
120 -— AMET | 
"M Lor x 
Hen 1 E 
110 oup Ide ut a 
* Ek a” + 
MEM x k 
100 k K^ 
9? o 
90 上 I o 
* 1.. 
80 e e 
s 





15 20 25 30 35 40 45 50 55 
图 9-2 绘 出 的 图 形 


9.2 有趣 模式 


有 趣 模式 顾名思义 ， 是 指 容易 让 我 们 产生 兴趣 的 模式 。 

在 数据 挖掘 和 机 器 学 习 中 ， 一 次 计算 会 产生 大 量 的 “模式 ”。 所 谓 模式 可 以 理解 成 一 种 
数据 规律 。 例 如 ， 上 述 K-Means 将 研究 的 数据 对 象 分 成 若干 个 组 ， 这 些 划 分 方法 就 是 模式 。 

在 后 面 的 章节 中 也 会 碰 到 其 他 的 算法 带 来 的 模式 。 在 一 次 算法 中 可 能 会 产生 很 多 模式 ， 
然而 “有 趣 模式 ”可 能 并 不 多 。 

如 果 一 个 模式 具备 以 下 特点 ， 那 么 它 是 有 趣 的 Interesting) 。 

C1) 易于 被 人 理解 。 

(2) 在 某 种 确信 度 上 ， 对 于 新 的 或 检验 数据 是 有 效 的 。 

(3) 是 潜在 有 用 的 。 

(4) 是 新 颖 的 。 

如 果 一 个 模式 证 实 了 某 种 假设 ， 则 它 也 是 有 趣 的 。 有 趣 的 模式 代表 知识 。 

怎么 理解 呢 ， 我 们 来 看 几 个 例子 体会 一 下 。 

第 一 ,“ 易 于 被 人 理解 ” 。 易 于 理解 的 意思 就 是 说 人 们 看 到 这 样 一 种 数据 关系 、 一 种 结果 ， 
比较 容易 从 非 数据 层面 进行 理解 ， 或 者 比较 容易 在 实际 的 生产 生活 中 解释 其 原理 或 关系 。 

第 二 ,“ 在 某 种 确信 和 度 上 ， 对 于 新 的 或 检验 数据 是 有 效 的 ”。 也 就 是 说 ， 这 样 一 种 总 结 
出 来 的 数据 规律 和 特性 对 于 新 的 样本 是 可 以 套用 的 ， 即 有 趣 模式 研究 的 绝 非 一 个 空前 或 绝 
后 的 孤本 ， 因 为 这 种 东西 不 具备 任何 迁移 性 和 继承 性 。 

第 三 ,“ 是 潜在 有 用 的 ”是 指 这 些 有 趣 模式 一 定 要 有 实际 意义 或 者 价值 ， 而 那些 虽然 能 
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被 理解 ， 而 且 可 以 用 来 检验 新 的 数据 样本 的 模式 ， 如 果 没 有 实际 意义 或 者 价值 ， 则 同样 不 
是 有 趣 的 。 

第 四 ,“ 是 新 颖 的 ”。 例 如 ， 不 会 有 人 对 几 十 年 前 就 已 经 非常 熟识 并 为 每 个 人 所 知晓 的 
知识 有 兴趣 。 因 为 已 知 的 东西 已 经 “ 浮 出 水 面 "， 不 需要 去 “ 挖 据 ” 了 。 


9.3 POLS, 


在 聚 类 的 过 程 中 ,会 常常 磁 到 一 些 离 主 群 或 者 离 每 个 群 都 非常 远 的 点 ， 这 种 点 就 叫 作 
孤立 点 ， 也 叫 离 群 点 。 扳 立 点 在 很 多 数据 研究 材料 中 是 专门 作为 一 类 研究 方法 来 研究 的 。 

聚 类 算法 通常 不 能 直接 解释 孤立 点 产生 的 原因 ， 但 是 扳 立 点 通常 也 是 有 具体 意义 的 。 

第 一 ， 孤 立 点 可 能 是 由 于 数据 清洗 不 当 而 产生 的 ， 这 属于 操作 性 的 失误 问题 ， 不 是 要 
研究 的 内 容 。 

第 二 ， 孤 立 点 通常 由 一 些 和 群 里 的 个 体 特点 差异 极 大 的 样本 组 成 ,它们 的 行为 在 真实 
世界 里 和 在 我 们 的 生产 生活 中 也 极 有 可 能 和 群 里 的 样本 有 着 巨大 的 差异 。 

在 生产 生活 中 ， 孤 立 点 的 应 用 和 研究 也 很 多 。 例 如 ， 在 银行 的 信用 卡 诈骗 识别 中 ， 研 
究 孤 立 点 就 是 很 好 的 办 法 ， 通 过 对 大 量 的 信用 卡 用 户 信息 和 消费 行为 进行 向 量化 建 模 和 聚 
类 ， 发 现在 聚 类 中 远离 大 量 样 本 的 点 显得 非常 可 疑 一 一 因为 他 们 和 一 般 性 的 信用 卡 用 户 特 
性 不 同 ， 他 们 的 消费 行为 和 一 般 性 的 信用 卡 消 费 行 为 也 相去 其 远 。 还 有 医学 领域 和 刑侦 领 
域 的 大 数据 研究 中 都 大 量 应 用 了 孤立 点 的 研究 技术 。 在 某 些 大 型 网 络 商城 里 ， 为 了 防止 一 
些 商 家 恶意 刷 单 ， 也 采用 了 与 刑侦 手段 相似 的 措施 ， 对 店铺 的 销售 行为 以 及 买 家 的 购买 行 
为 进行 聚 类 ， 看 看 有 哪些 对 象 是 与 一 般 性 的 店铺 销售 行为 或 者 买 家 购买 行为 差异 巨大 的 ， 
从 而 做 出 规则 上 的 预防 。 

















9.4 层次 聚 类 


层次 聚 类 这 个 说 法 很 形象 ， 与 本 章 最 开始 介绍 的 人 类 “ 自 底 向 上 ”认识 事物 的 过 程 是 
一 样 的 。 

前 面 介绍 的 KK-Means 算法 是 直接 把 样本 分 成 若干 个 群 ， 而 现在 讨论 的 层次 聚 类 就 是 通 
过 肾 类 算法 把 样本 根据 距离 分 成 若干 大 群 ， 大 群 之 间 相 异 ， 大 群 内 部 相似 ， 而 大 群 内 部 又 
当成 一 个 全 局 的 样本 空间 ， 再 继续 划分 成 若干 小 群 ， 小 群 之 间 相 异 ， 小 群 内 部 相似 。 这 就 
是 层次 聚 类 的 思想 。 最 后 形成 的 是 一 棵 树 的 结构 。 

图 9-3 所 示 为 部 分 动物 界 物种 分 类 层级 的 示意 图 ， 从 大 到 小 分 别 是 门 、 纲 、 目 、 科 、 
属 、 种 6 个 层级 ， 这 里 只 列 出 了 前 3 个 层级 。 这 就 像 公 司 内 部 的 部 门 层 级 结构 一 样 ， 从 小 
到 大 看 也 是 根据 个 体 与 个 体 、 小 类 与 小 类 之 间 的 相似 程度 汇聚 成 一 个 圳 括 更 多 相似 特征 的 
大 和 群体， 而 后 层 层 如 此 。 
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图 9-3 ”部 分 动物 界 物种 分 类 层次 示 图 


从 思考 角度 来 说 ， 有 两 种 思路 ， 一 种 是 “凝聚 的 层次 聚 类 方法 ”， 一 种 是 “分 裂 的 层次 
聚 类 方法 ”。 这 两 种 说 法 也 很 形象 ,“ 凝 聚 的 层次 聚 类 方法 ”就 是 在 大 量 的 样本 中 自 底 向 上 
找 那些 距离 比较 近 的 样本 先 聚 合成 小 的 群 ， 聚 合 到 一 定 程 度 再 由 小 的 群 聚合 成 更 大 的 群 。 
“分 裂 的 层次 聚 类 方法 ”也 好 理解 ， 就 是 先 把 所 有 的 样本 分 成 若干 个 大 群 ， 再 在 每 个 群 里 各 
自重 新 进行 聚 类 划分 。 

“分 裂 的 层次 聚 类 方法 ”比较 好 做 。 甚 实 可 以 尝试 用 前 面 介 绍 的 K-Means， 可 以 先 用 
K-Means 进行 一 次 聚 类 ， 分 成 否 干 个 类 徐 ， 再 在 每 个 类 簇 中 使 用 K-Means 进行 聚 类 ， 这 种 
思路 是 很 容易 被 想到 的 。 这 种 方式 大 家 尝试 去 用 一 下 就 可 以 了 。 

下 面 重点 介绍 “凝聚 的 层次 聚 类 方法 ”。 

凝聚 的 层次 聚 类 方法 是 通过 这 样 的 算法 思路 进行 工作 的 : 在 Scikit-learn 库 中 ， 提 供 了 
一 种 叫 作 AgglomerativeClustering 的 分 类 算法 。 首 先 ， 它 把 整个 待 分 类 样本 看 作 一 棵 完整 
的 树 ， 树 根 是 所 有 的 训练 样本 向 量 ， 而 众多 树叶 就 是 每 一 个 单独 的 样本 。 然 后 ， 设 计 几 个 
观察 点 ， 让 它们 散布 在 整个 训练 样本 中 。 让 这 些 观察 点 自 下 而 上 不 断 地 进行 类 簇 的 合并 。 
这 种 聚 类 合并 也 是 遵循 一 定 的 原则 的 ， 即 基于 连接 度 的 度量 来 判断 是 否 要 向 上 继续 合并 两 
PESE ERANT 3 种 不 同 的 策略 原则 。 

O Ward 策略 : 让 所 有 类 簇 中 的 方差 最 小 化 。 

口 Maximum 策略 : 也 叫 completed linkage (全 连接 策略 )， 力 求 将 类 簇 之 间 的 距离 最 大 

值 最 小 化 。 
T Average linkage 策略 : 力求 将 簇 之 间 的 距离 的 平均 值 最 小 化 。 
本 例 用 的 是 Ward 策略 。 


#coding=utf-8 









import numpy as np 
import matplotlib.pyplot as plt 
from sklearn.cluster import AgglomerativeClustering 


H 从 磁盘 读 取 城 市 经 纬度 数据 
x= [] 
f = open('city.txt') 
for v in f: 
X.append([float (v.split(',') [2]), float(v.split(',') [31)]) 


4 转换 成 numpy array 
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X = np.array(X) 


# 类 簇 的 数量 


n clusters = 5 


# 现在 把 数据 和 对 应 的 分 类 数 放 入 聚 类 函数 中 进行 聚 类 ， 使 用 方差 最 小 化 的 方法 'ward' 


cls = AgglomerativeClustering(linkage-'ward', n clusters-n clusters) .fit (X) 


ux 中 每 项 所 属 分 类 的 一 个 列表 

cls.labels_ 

# 画图 

markers = ['*', 'x", 'o", Wt, Sevi 

for i in range(n clusters): 

members = cls.labels == i 
plt.scatter(X[members, 0], X[members, 1], s-60, marker-markers[i], c-'b', 

alphaz0.5) 


plt.title('') 
pit.show() 


绘 出 的 图 形 如 图 9-4 所 示 。 
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图 9-4 绘 出 的 图 形 


层次 聚 类 的 思路 其 实 并 没有 什么 很 新 奇 的 地 方 ， 它 的 优势 更 多 的 是 为 层次 化 的 可 视 化 
提供 支持 ， 在 我 们 认识 比较 陌生 的 数据 层次 时 比较 有 帮助 。 那 么 什么 是 比较 熟悉 的 ? 什么 
是 比较 陌生 的 ? 比较 熟悉 的 就 是 人 类 主观 上 已 经 确定 或 者 规定 的 层次 方式 ， 如 员工 等 级 、 
交通 工具 分 类 等 ， 这 种 本 来 就 是 由 人 主观 性 规定 的 数据 就 是 人 类 熟悉 的 数据 。 不 熟悉 的 数 
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据 如 生物 的 分 类 和 进化 等 ， 是 几 千 万 年 来 客观 留 下 的 ， 在 人 类 出 现 之 前 早 就 已 经 开始 而 且 
到 现在 还 没有 结束 的 ， 只 能 通过 典型 的 穷 举 个 体 的 方式 来 逐步 “ 自 底 向 上 ”认识 它们 。 这 
个 课题 ， 可 以 通过 对 生物 解剖 学 的 特征 进行 向 量 建 模 ， 也 可 以 根据 DNA 的 特征 进行 向 量 
建 模 然 后 挖掘 。 此 外 ， 层 次 聚 类 的 思路 也 可 以 用 于 对 人 们 社会 活动 中 的 一 些 现象 进行 总 结 ， 
如 一 个 做 歌曲 发 布 的 网 站 ， 如 果 和 希望 做 推荐 算法 ， 可 以 考虑 对 一 个 人 爱 听 的 歌曲 进行 层次 
化 的 聚 类 。 对 每 首 爱 听 的 歌曲 进行 向 量 建 模 ， 如 对 一 首 歌 的 各 个 信息 维度 进行 建 模 ， 例 如 : 

(' 音 域 ', ' 调 式 ', ' 节 拍 ', ' 速 度 ', ' 配乐 乐器 ', ' 国家 元 素 ', ' 滑 音 ', ' 长 音 ', ' 语 言 ', 
歌手 年 龄 '，' 歌手 性 别 … ) 

对 上 述 信息 进行 量化 。 那 么 可 以 尝试 挖掘 这 个 用 户 喜 欢歌 曲 的 大 类 别 ， 以 及 其 下 的 小 
类 别 。 或 者 研究 歌曲 流行 风格 进化 细 化 的 趋势 等 。 


9.5 KERK 


密度 聚 类 很 多 时 候 用 在 聚 类 形状 不 规则 的 情形 下 ， 如 图 9-5 所 示 ， 黑 点 和 白 点 分 别 代 
表 两 种 不 同 的 聚 类 类 型 。 
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图 9-5 到 类 形状 不 规则 


从 图 9-5 中 可 以 看 出 ,很 显然 类 别 是 这 两 个 不 规则 的 形状 。 但 是 如 果 使 用 KK-Means 算 
法 ,无论 如 何 是 得 不 到 这 个 结果 的 ， 因 为 K-Means 是 用 欧 氏 距离 半径 来 进行 类 簇 划 分 的 ， 
对 于 这 种 带 拐弯 的 、 狭 长 的 、 不 规则 形状 的 聚 类 效果 就 没有 圆 形 类 簇 的 效果 好 。 

值得 注意 的 是 ，K-Means 的 距离 计算 公式 也 是 可 以 选取 的 ， 一般 用 欧 氏 距离 比较 简单 ， 
或 者 用 曼哈顿 距离 。 常 用 的 距离 度量 方法 包括 欧 氏 距离 和 余弦 相似 度 。 两 者 都 是 评定 个 体 
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间 差 异 的 大 小 的 。 欧 氏 距 离 度 量 会 受 指标 不 同 单位 刻度 的 影响 ， 所 以 一 般 需 要 先进 行 标准 
化 或 者 归 一 化 ， 同 时 距离 越 大 ， 个 体 间 差异 越 大 ; 空间 向 量 余弦 夹 角 的 相似 度 度量 不 会 受 
指标 刻度 的 影响 ， 余 弱 值 落 于 区 间 [-1，1] 上 ， 值 越 大 ， 差 异 越 小 。 有 关 使 用 余弦 相似 度 来 
度量 个 体 向 量 距离 的 例子 将 在 后 面具 体 介 绍 。 

在 sklearn 里 也 有 专门 用 来 做 基于 密度 分 类 的 算法 库 一 一 sklearn.cluster.DBSCAN。 

由 于 密度 聚 类 在 样本 比较 多 时 容易 看 出 效果 ， 所 以 这 里 使 用 一 个 向 量 比较 多 的 例子 。 
向 量 定义 如 下 : 

(位 次 ， 国 家 ， 面 积 km2， 人 口 ，GDP 亿美 元 ， 人 均 GDP 美元 ) 

注意 : 向 量 实 例 一 共有 12 个 ， 为 了 和 代码 统一 ， 这 里 不 写 两 边 的 括号 ， 但 是 意义 是 
样 的 。 


国家 ， 面积 km2， 人口 ,GDP 亿美 元 ， 人 均 CDP 美元 








+E] ,9670250,1392358258,99960,7179 
印度 ,2980000,1247923065,18707,1505 
美国 ，9629091,317408015,167997,53101 
巴西 ,8514877,201032714,22429,11311 
日 本 ,377873,127270000,49015,38491 
澳大利亚 ,7692024,23540517,15053, 64863 
加 拿 大 ,9984670,34591000,18251,51990 
俄罗斯 ,171244422,143551289,21180,14819 
泰国 ,513115,67041000,3871.6,5674 

3X 53€ ,181035,14805358,156.5,1016 

# E ,99600,50400000,12218,24329 

朝鲜 ,120538,24052231,355,1476 


对 它们 进行 密度 聚 类 的 代码 如 下 : 


#coding=utf-8 

import numpy as np 

from sklearn.cluster import DBSCAN 
import matplotlib.pyplot as plt 


# 国家 面积 和 人 口 
X = 
[9670250, 1392358258], 4 中国 
[2980000, 1247923065], # 印度 
[9629091, 317408015], # žE 
8514877, 201032714], # ETE 
377873, 127270000], # EX 
7692024, 23540517], # X X43 
9984670, 34591000], 4 加 拿 大 
[17075400, 143551289], ，# 俄 罗斯 
513115，67041000] ，# 泰 国 
[181035, 14805358], # XE 
99600, 50400000], ##E 
[120538, 24052231]] # £j& 
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# 转换 成 numpy array 
X = np.array(X) 


8 做 归 一 化 
a = X[:, :1] / 17075400.0 * 10000 
b - X[:, 1:] / 1392358258.0 * 10000 


X - np.concatenate((a, b), axis-1) 


# 现在 把 训练 数据 和 对 应 的 分 类 放 入 分 类 器 中 进行 训练 ， 这 里 没有 出 现 噪点 是 因为 把 min samples 设置 成 了 1 
cls = DBSCAN(eps-2000, min samples-1) .fit (X) 


# RAAE 


n clusters = len(set(cls.labels )) 


ax 中 每 项 所 属 分 类 的 一 个 列表 





cls.labels_ 
# 画图 
markers = ['^', 'x', 'o', '*!', '4!] 
for i in range(n clusters): 
my members - cls.labels -- i 


plt.scatter(X[my members, 0], X[my members, 1], s-60, marker-markers[i], 
c-'b', alpha-0.5) 


plt.title('dbscan') 
plt.show() 


绘 出 的 图 形 如 图 9-6 所 示 。 
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图 9-6 绘 出 的 图 形 


在 这 个 例子 里 ， 国 家 被 分 为 了 5 个 不 同 的 类 别 ， 在 图 上 分 别 由 5 种 不 同 的 图 形 元 素来 
标识 ， 我 们 也 可 以 看 出 大 体 上 分 ， 就 是 人 口 和 面积 都 多 ， 人 口 和 面积 都 少 ， 人 口 多 面积 少 ， 
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人 口 少 面积 多 ,还 有 一 个 在 右 下 角 的 用 “+” 来 表示 的 这 个 是 俄罗斯 ， 它 在 “地 广 人 稀 ” 方 
面 是 脱颖而出 。 
这 里 唯一 要 解释 的 是 关于 归 一 化 的 问题 即 以 下 两 行程 序 代码 : 


a = X[:, :1] / 17075400.0 * 10000 
b = Xiz, 1:] / 1392358258.0 * 10000 


归 一 化 问题 是 为 了 解决 由 于 维度 量 纲 或 单位 不 同 所 产生 的 距离 计算 问题 而 进行 的 权重 
调整 一 一 这 几乎 是 数据 挖掘 必需 的 工作 ， 一 般 放 在 数据 准备 阶段 ， 目 的 是 把 两 个 不 同 维度 
的 数据 都 投影 (延展 或 压缩 ) 到 以 10 000 为 最 大 值 的 正方 形 区 域 里 。 如 果 不 做 归 一 化 处 理 ， 
在 这 个 例子 中 ， 会 由 于 人 口 的 数字 (万 人 ) 比 面积 的 单位 (万 平方 千 米 ) 大 太 多 而 导致 由 于 
人 口 差 距 产生 的 距离 比重 太 大 ， 失 去 了 多 个 维度 上 聚 类 的 意义 。 如 果 觉 得 不 好 理解 ， 再 举 
一 个 更 极端 的 例子 ， 如 果 这 里 人 口 单位 用 人 ， 而 面积 单位 用 万 平方 千 米 ， 那 么 人 口 维度 上 
会 用 几 千 万 或 者 几 亿 来 表示 , 产生 的 距离 差距 是 几 千 万 或 者 几 亿 ; 而 国土 面积 用 的 是 几 十 
或 者 几 百 来 表示 ， 在 距离 估算 的 过 程 中 几乎 可 以 忽略 国土 面积 参与 计算 的 成 分 。 归 一 化 问 
题 在 聚 类 中 会 比较 常 遇 到 ， 后 面 第 13 章 中 同样 有 这 个 话题 的 讨论 。 

关于 参数 这 里 需要 做 一 个 补充 说 明 : 


cls = DBSCAN(eps-2000, min samples=1) .fit (X) 


这 条 语句 中 有 两 个 参数 ， 一 个 是 eps, 一 个 是 min_samples。 

eps 的 含义 是 设置 一 个 阔 值 ， 在 根据 密度 向 外 扩展 的 过 程 中 如 果 发 现在 这 个 阐 值 距离 范 
围 内 找 不 到 向 量 ， 那 么 就 认为 这 个 聚 簇 已 经 查找 完毕 。 在 这 个 例子 中 设置 的 是 2 000， 因 为 
归 一 化 以 后 所 有 的 变量 都 落 在 一 个 10 000 x 10 000 的 区 间 单 位 ,设置 一 个 2 000 的 单位 能 
够 充分 把 各 个 聚 簇 隔 开 ， 如 果 归 一 化 到 1 000 x 1 000 的 区 间 单 位 则 应 该 采用 200 作为 参数 
值 ， 或 者 设置 其 他 参数 值 来 改变 聚 徐 的 原则 。 

min samples 的 含义 是 告诉 算法 聚 簇 最 小 应 该 拥有 多 少 个 向 量 。 如 果 这 个 数字 设置 为 
3， 那 么 算法 会 认为 所 有 小 于 3 个 向 量 的 聚 类 为 噪声 点 ， 会 在 结果 中 直接 丢弃 。 例 如 ， 在 图 
9-6 中 ， 如 果 将 min samples 设置 为 3， 则 右 下 角 的 俄罗斯 、 上 面 的 中 国 和 印度 都 将 作为 噪 
声 点 被 消除 而 不 会 显示 。 

由 于 聚 类 是 一 个 非 监 督学 习 的 过 程 ， 所 以 在 聚 类 的 过 程 中 免不了 要 多 尝试 几 次 ， 调 整 
参数 ， 以 找 出 最 合理 的 聚 类 方式 。 











9.6” 聚 类 评估 


除了 以 上 聚 类 的 算法 外 还 有 很 多 聚 类 的 算法 ， 读 者 有 兴趣 可 以 查阅 相关 的 资料 ， 但 是 
总 体 思 路 都 非常 相近 ， 很 多 只 是 在 不 同 场景 下 计算 效率 不 同 而 已 。 
但 是 聚 类 的 好 坏 怎 么 判断 呢 ? 聚 类 质量 如 何 判断 呢 ? 下 面 进行 讨论 。 
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聚 类 的 质量 评估 包括 以 下 3 个 方面 。 

C1) 估计 聚 类 的 趋势 。 对 于 给 定 的 数据 集 ， 评 估 该 数据 集 是 否 存在 非 随机 结构 ， 也 就 
是 分 布 不 均匀 的 情况 。 如 果 直 接 使 用 各 种 算法 套用 在 样本 上 ， 然 后 返回 一 些 类 复 ， 这 些 类 
簇 的 分 布 很 可 能 是 一 种 错误 的 分 类 ， 会 对 人 们 产生 误导 。 数 据 中 必须 存在 非 随机 结构 ， 卫 
类 分 析 才 是 有 意义 的 。 

(2) 确定 数据 集中 的 簇 数 。 上 述 K-Means 算法 在 一 开始 就 需要 确定 类 簇 的 数量 ， 并 作 
为 参数 传递 给 算法 。 这 里 容易 让 人 觉得 有 点 矛盾 ， 即 人 主观 来 决定 一 个 类 簇 的 数量 的 方法 
是 不 是 可 取 。 

(3) 测量 聚 类 的 质量 。 可 以 用 量化 的 方法 来 测量 聚 类 的 质量 。 


9.6.1 聚 类 趋势 

如 果 样 本 空间 里 的 样本 是 随机 出 现 的 ， 本 身 没 有 聚 类 的 趋势 ,那么 使 用 聚 类 肯定 是 有 
问题 的 。 

图 9-7 和 图 9-8 都 是 在 二 维 空间 里 的 向 量 样本 ， 图 9-7 所 示 为 随机 样本 ， 图 9-8 所 示 为 
有 聚 类 样本 ， 两 者 的 分 布 样 态 非常 不 同 。 我 们 常用 霍 普 金 斯 统计 量 ( Hopkins Statistics) 来 
进行 量化 评估 。 





图 9-7 随机 样本 图 9-8 ARXA 


第 一 步 ， 从 所 有 的 样本 向 量 中 随机 找 个 向 量 ， 把 它们 称 为 p 向 量 ， 每 一 个 向 量 分 别 
Ji pis pos cnn Po 对 每 一 个 向 量 都 在 样本 空间 里 找 一 个 离 其 最 近 的 向 量 ， 然 后 求 距 离 (用 
欧 氏 距离 即 可 )， 然 后 用 x,、x;、……… Ox, 来 表示 这 个 距离 。 

第 二 步 ， 在 所 有 样本 向 量 中 随机 找 个 向 量 ， 把 它们 称 为 gq 向量， 每 一 个 向 量 分 别 是 
Qi. dy. ch «Quo 对 每 一 个 向 量 都 在 样本 空间 里 找 一 个 离 其 最 近 的 向 量 ， 然 后 求 距 离 (用 
KXECER BEER), AEH yi. Ya. con 、 儿 来 表示 这 个 距离 。 

第 三 步 ， 求 出 霍 普 金 斯 统计 量 H: 
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2 
H e i=l 
2X * >» 
i=l i-l 


上 式 中 ， 分 子 就 是 把 所 有 第 二 次 找 出 的 9 向 量 的 每 个 向 量 的 临近 向 量 求 距离 然后 加 和 。 
分 母 是 两 项 的 加 和 ， 一 项 是 分 子 ,一 项 是 p 向 量 的 每 个 向 量 的 临近 向 量 的 距离 加 和 。 

如 果 整 个 样本 空间 是 一 个 均匀 的 ， 没有 聚 类 趋势 (RREA) 的 空间 ， 那 么 五 应 该 
为 0.5 左 在 。 反 之 ， 如 果 是 有 聚 类 趋势 (RERA) WEZH, IMA H MARET 1。 

霍 普 金 斯 统计 量 不 是 一 个 常用 的 统计 指标 ， 相 关 资 料 较 少 。 在 R 语 言 里 有 一 个 叫 作 
comato 的 包 ， 其 中 clustering.r 这 个 文件 里 会 有 源 代码 。 

这 里 用 Python 实现 霍 普 金 斯 统计 量 ， 下 面 先 声明 一 段 公用 代码 段 。 

霍 普 金 斯 统计 量 计 算 用 代码 : 

#coding=utf-8 


import numpy as np 
from sklearn.cluster import KMeans 





X = 


Hl 


[9670250, 1392358258], 4 ¥ 
2980000, 1247923065], 4 印度 
9629091, 317408015], # žE 
[8514877, 201032714], 4 巴西 

377873, 127270000], 4 EX 

7692024, 23540517], S 澳大利亚 
[9984670, 34591000], # 加拿大 

[17075400, 143551289], #R 7 # 
[513115, 67041000], ##E 
[181035, 14805358], # XX 
[99600, 50400000], # 韩国 
120538, 24052231]] # 朝鲜 




















4 转换 成 numpy array 
X = np.array (X) 


归 一 化 

- X[:, :1] / 17075400.0 * 10000 

= X[k; 1:] / 1392358258.0 * 10000 
- np.concatenate((a, b), axis-1) 


M 0m at 


pn = X[np.random.choice(X.shape[0], 3, replace-False), :] 


# pus 3 个 

* [I 221.29671926 914.06072589] 
# I 70.59161132 172.74455667] 
4 [ 10000. 1030.99391392]] 
xn = [I 


for i in pn: 


ww ai bbt. com [1 E] D] B] E. D] D] 


distance min - 1000000 
ror j in X: 
if np.array equal(j, i): 
continue 
distance - np.linalg.norm(j - i) 
if distance min » distance: 
distance min - distance 
xn.append(distance min) 


gn - X[np.random.choice(X.shape[0], 3, replace-False), :] 
8 随机 选 出 3 个 

* [[ 10000. 1030.99391392] 

# [ 4986.63398808 1443.82893444] 

# I 221.29671926 914.06072589]] 

yn - [] 


for i in qn: 
distance min - 1000000 
for j in X: 
if np.array equal(j, i): 
continue 
distance - np.linalg.norm(j - i) 
if distance min » distance: 
distance min - distance 
yn.append(distance min) 


H = float(np.sum(yn)) / (np.sum(xn) + np.sum(yn)) 
print H 
# 结果 为 0.547 059 223 781 


9.6.2 fS XE 

确定 一 个 样本 空间 里 有 多 少 簇 数 也 是 很 重要 的 ， 尤 其 是 在 K-Means 这 种 算法 里 一 开始 
就 要 求 给 定 要 被 分 成 的 簇 数 。 况 且 ， 簇 数 的 猜测 也 会 影响 聚 类 的 结果 ， 簇 数 太 多 ， 样 本 被 
分 成 很 多 小 艇 ， 簇 数 太 少 ， 样 本 基本 没有 被 分 开 ， 都 没有 意义 。 


有 的 资料 上 讲 有 一 种 简单 的 经 验 法 就 是 对 于 个 样本 的 空间 ， 设 置 簇 数 p sp., 在 其 


望 状态 下 每 个 徐 大 约 有 V2n 个 点 。 但 是 这 种 说 法 没有 找到 太 多 的 依据 ， 只 能 作为 参考 。 

还 有 一 种 方法 叫 “ 肘 方法 ”(The Elbow Method)， 被 认为 是 一 种 更 为 科学 的 方式 。 思 路 
如 下 。 

尝试 把 样本 空间 划分 1 个 类 、2 个 类 、3 个 类 、…… 、n 个 类 ， 要 确定 哪 种 分 法 最 为 科学 ， 
在 分 成 m 个 类 簇 的 时 候 会 有 一 个 划分 方法 ， 在 这 种 划分 的 方法 下 ， 每 个 类 徐 的 内 部 都 有 若 
干 个 向 量 ， 计 算 这 些 向 量 的 空间 中 心 点 ， 即 计算 这 m 个 类 簇 各 自 的 空间 重心 在 哪里 。 再 计 
算 每 个 类 簇 中 每 个 向 量 和 该 类 簇 重心 的 距离 (大 于 等 于 0) 的 和 。 最 后 把 m 个 类 簇 各 自 的 距 
离 和 相 加 得 到 一 个 函数 var(n) , n 就 是 类 簇 数 。 
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可 以 想象 ， 这 个 平方 和 最 大 的 时 刻 应 该 是 分 1 个 类 一 一 也 就 是 不 分 类 的 时 候 ， 所 有 的 
en dd ge et tt 
4 个 类 …… 随 着 分 类 的 增多 ,第 加 次 划分 时 ， 每 个 向 量 到 自己 艇 的 重心 的 距离 会 比 上 一 次 
(m-1 次 ) 临近 的 机 会 更 大 ， 那 么 这 个 距离 和 就 会 总 体 上 缩小 。 极 限 情况 是 最 后 被 分 了 n 个 
KiE, n 是 整个 空间 向 量 的 数量 ， 也 就 是 一 个 向 量 一 个 类 簇 ， 每 个 类 簇 一 个 成 员 。 这 种 情况 
最 后 距离 的 和 就 变 成 了 0， 因 为 每 个 向 量 距 离 自己 (自己 就 是 重心 ) 的 距离 都 是 0。 

如 图 9-9 所 示 , m 从 1 次 、2 次 、3 次 …… 逐 步 往 上 增加 的 过 程 中 ， 整 个 曲线 的 斜率 会 
逐步 降低 ， Mes 开始 是 快速 下 降 的 。 下 降 过 程 中 有 一 
个 拐点 ， 这 一 个 点 会 让 人 感觉 曲线 从 立 陡 变 成 平滑 ,， 那 
du co a 
之 后 ， 再 分 成 更 多 的 类 簇 时 ， 每 次 的 “收获 ”没有 前 面 
每 次 “收获 ”那么 大 ， 此 时 的 m 的 值 就 是 被 认为 最 为 合 
适 的 类 复数 量 。 这 个 点 在 曲线 上 给 人 的 感觉 像 是 人 的 胸 
膊 肘 一 样 ， 所 以 被 形象 地 命名 为 “ 肘 方 法 " 。 例 如 ， 图 
9-9 中 的 4 点 或 者 巨 点 都 可 以 尝试 作为 这 个 拐点 。 

但 是 这 个 方法 的 时 间 复 杂 度 可 能 会 相当 高 ， 因 为 每 
一 次 尝试 都 要 计算 ,可 以 用 来 做 一 次 经 验 总 结 或 者 试探 
性 的 数据 分 析 ， 但 是 在 线 计算 时 不 推荐 使 用 。 而 且 有 时 图 9-9 m 与 距离 的 关系 
候 会 发 现 这 个 点 可 能 不 是 很 好 确定 ， 这 个 拐点 不 清晰 。 

这 种 时 候 适当 地 在 计算 效率 和 收益 程度 上 做 一 个 平衡 即 可 ， 不 必 太 纠结 ， 毕 竟 聚 类 是 一 个 
无 监督 的 学 习 。 
我 们 给 出 Python 的 示例 代码 ， 如 下 所 示 : 


距离 





# coding-utf-8 

4 面积 km2， 人 口 

X wm l 
[9670250, 1392358258], # 中 国 
[2980000, 1247923065], # 印度 
[9629091, 317408015], & 美国 
[8514877, 201032714], # 巴西 
[377873, 127270000], # HX 
[7692024, 23540517], # 澳大利亚 
[9984670, 34591000], 4 加 拿 大 
[17075400, 143551289], # R2 
[513115, 67041000], # E 
[181035, 14805358], 4 XX 
[99600, 50400000], & # E 
[120538, 24052231]] # 朝鲜 


4 转换 成 numpy array 
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X = np.array (X) 


# 归 一 化 

a = X[:, :1] / 17075400.0 * 10000 

b - X[:, 1:] / 1392358258.0 * 10000 
X - np.concatenate((a, b), axis-1) 


H EAE 


n clusters - 1 
cls = KMeans (n clusters) .fit (X) 


8T AR BPATER 


cls.cluster centers 


ux dq 4^ gs Pr ON 


cls.labels 


s 曼哈顿 距离 
def manhattan distance(x, y): 
return np.sum (abs (x-y)) 


distance sum = 0 
for i in range(n clusters): 


group = cls.labels i 


members - X[group, :] 
for v in members: 
distance sum «- manhattan distance(np.array(v), cls.cluster centers ) 
print distance sum 
4 结果 为 63 538.244 390 5 


以 上 为 使 用 K-Means 算法 ,在 m=1 时 所 计算 的 肘 方法 的 函数 值 ， 如 果 想 计算 m 为 其 他 
值 时 的 结果 ， 则 修改 代码 : 


n clusters = 1 


即 可 得 到 对 应 的 距离 值 。 


9.6.3 ”测定 聚 类 质量 

在 使 用 前 面 介 绍 的 方法 确定 了 类 艇 的 数量 后 ， 就 可 以 进行 聚 类 了 。 但 是 即便 类 复数 量 
一 样 ， 聚 类 也 可 能 不 止 一 种 方案 。 

测定 聚 类 质量 的 方法 很 多 ， 一 般 分 为 “外 在 方法 ”和 “内 在 方法 ”两 种 。 

所 谓 外 在 方法 是 一 种 依靠 类 别 基 准 的 方法 ， 即 已 经 有 比较 严格 的 类 别 定义 时 再 讨论 聚 
类 是 不 是 足够 准确 。 这 里 通常 使 用 “ BCubed 精度 ”和 “BCubed 召回 率 ” 来 进行 衡量 。 但 
是 外 在 方法 适用 于 有 明确 的 外 在 类 别 基准 的 情况 ， 而 聚 类 是 一 种 无 监督 的 学 习 ， 更 多 是 在 
不 知道 基准 的 状况 下 进行 的 ， 所 以 我 们 更 倾向 于 使 用 “内 在 方法 ”。 
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“内 在 方法 ”不 会 去 参考 类 徐 的 标准 ， 而 是 使 用 轮廓 系数 (Silhouette Coefficient) 进行 
度量 。 

对 于 有 个 向 量 的 样本 空间 ,假设 它 被 划分 成 kx 个 类 簇 ， 即 C Ca eee < Gg 对 
于 任何 一 个 样本 空间 中 的 向 量 v 来 说 ， 可 以 求 一 个 v 到 本 类 簇 中 其 他 各 点 的 距离 的 平均 值 
a(v)， 还 可 以 求 一 个 v 到 其 他 所 有 各 类 簇 的 最 小 平均 距离 ( 即 从 每 个 类 簇 里 挑选 一 个 离 v 最 
近 的 向 量 ， 然 后 计算 距离 )， 求 这 些 距离 的 平均 值 ， 得 到 ww) ， 轮 廓 系数 定义 为 


soj- — 007 a() 
max[a(v),b(v)] 


一 般 来 说 ， 这 个 函数 的 结果 在 -1 和 1 之 间 。a(v) 表示 的 是 类 簇 内 部 的 紧凑 型 ， 越 小 越 
紧凑 ， 而 b(v) 表示 该 类 徐 和 其 他 类 簇 之 间 的 分 离 程 度 。 如 果 函 数值 接近 1， 即 a(v) 比较 小 
而 b(v) 比较 大 时 ， 说 明 包含 "的 类 簇 非常 紧凑 ， 而 且 远离 其 他 的 类 徐 。 相 反 ， 如 果 函 数值 
为 负数 ， 则 说 明 a(vjb(v), v 距离 其 他 的 类 簇 比 距 离 自 己 所 在 类 簇 的 其 他 对 象 更 近 ， 那 么 这 
种 情况 质量 就 不 太 好 ， 应 该 尽 可 能 避免 。 

为 了 让 聚 类 中 的 类 簇 划分 更 为 合理 ， 可 以 计算 复 中 所 有 对 象 的 轮廓 系数 的 平均 值 (但 是 
这 个 计算 量 有 可 能 会 相当 大 ， 请 谨慎 使 用 )， 然 后 求 平均 值 。 在 一 种 方案 里 ， 如 果 轮 廓 系数 
是 负数 那么 可 以 直接 淘汰 ， 如 果 是 正 数 则 可 以 在 多 个 方案 里 进行 比较 ， 选 择 一 种 轮 廊 系数 
接近 1 的 方案 。 但 是 计算 时 占用 较 多 内 存 ， 尤 其 是 在 数据 量 巨 大 时 ， 在 使 用 时 请 谨慎 ,或 
者 使 用 抽样 后 的 数据 进行 计算 。 

下 面 给 出 一 个 用 K-Means 做 完 分 类 后 再 做 聚 类 质量 评估 的 Python 的 示例 代码 。 


4 coding-utf-8 

# encoding-utf-8 

import numpy as np 

from sklearn.cluster import KMeans 


# 面积 km2， 人 口 

X= [ 
[9670250, 1392358258], # 中 国 
[2980000, 1247923065], & 印度 
[9629091, 317408015], # Él 
[8514877, 201032714], 4 巴西 
[377873, 127270000], # 日 本 
[7692024, 23540517], & 省 大 利 亚 
[9984670，34591000] ，# 加 拿 大 
[17075400，143551289] ，# 俄 罗斯 
[513115, 67041000], ## E 
[181035, 14805358], 4 XX 
[99600, 50400000], & 韩国 
[120538, 240522311] # #4 


4 转换 成 numpy array 
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X = np.array(X) 


y — 1t 

= X[:, :1] / 17075400.0 * 10000 
X[:, 1:] / 1392358258.0 * 10000 
- np.concatenate((a, b), axis-1) 


»* 0 m9 
ll 


# 类 簇 的 数量 


n clusters = 3 
cls = KMeans (n clusters) .fit (X) 


4 EBTSE 


cls.cluster centers 


#X IPAE s Pr REL 
cls.labels 


# 曼哈顿 距离 
def manhattan distance(x, y): 
return np.sum(abs (x-y)) 


&a(v), X[0] 到 其 他 点 的 距离 的 平均 值 
distance sum = 0 
for v in X[1:]1: 
distance sum += manhattan distance (np.array(X[0]), np.array(v)) 
av = distance sum / len(X[1:]) 
print av 
411971.5037823 


#b(v), X[0] 
distance min - 100000 
for i in range(n clusters): 
group = cls.labels == i 
members = X[group, :] 
for v in members: 
if np.array equal(v, X[01): 
continue 
distance - manhattan distance(np.array(v), cls.cluster centers ) 
if distance min » distance: 
distance min - distance 
bv - distance sum / n clusters 
print bv 
443895.5138683 


sv - float(bv - av) / max(av, bv) 


print sv 
#0. 727272727273 


在 这 种 分 类 方案 下 ， 得 到 的 轮廓 系数 约 为 0.727， 如 果 找 不 到 更 好 的 方案 ， 这 个 就 已 经 
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是 最 优 解 了 。 如 果 不 满意 ， 则 修改 以 下 代码 ， 换 成 其 他 类 簇 值 ， 然 后 查看 轮廓 系数 。 


n clusters - 3 


9.7 小 结 

聚 类 这 一 章 的 内 容 是 机 器 学 习 中 探索 性 较 强 的 一 章 ， 是 一 类 用 归纳 方式 来 进行 认 知 和 
观察 的 方法 体系 。 应 该 说 聚 类 在 我 们 发 现 和 总 结 观察 对 象 的 共性 和 规律 方面 还 是 有 很 多 应 
用 场景 的 ， 例 如 在 向 量化 相对 完整 的 前 提 下 找 出 忠诚 客户 的 共性 、 找 出 流 式 客户 的 共性 、 
找 出 疑似 在 业务 场景 中 作 浆 的 个 案 等 ， 这 些 都 可 以 尝试 使 用 了 肾 类 的 方法 进行 发 握 和 分 析 。 


请 大 家 灵活 运用 。 
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分 类 
分 类 算法 是 机 器 学 习 中 的 一 个 重点 ， 也 是 人 们 常 说 的 “有 监督 的 学 习 * 。 这 是 一 种 利用 


一 系列 已 知 类 别 的 样本 来 对 模型 进行 训练 调整 分 类 器 的 参数 ， 使 其 达到 所 要 求 性 能 的 过 程 ， 
也 称 为 监督 训练 或 有 教师 学 习 。 

换 名 话说， 首先 知道 大 量 的 样本 对 象 ， 并 且 知道 这 些 样本 对 象 的 “特征 ”和 所 属 类 别 ， 
把 这 些 数据 告诉 计算 机 ， 让 计算 机 总 结 分 类 的 原则 ， 形 成 一 个 分 类 模型 ， 再 把 新 的 待 分 类 
或 者 说 未 知 分 类 的 样本 交 给 它 ， 让 它 完成 分 类 过 程 。 

也 就 是 说 ， 先 用 一 部 分 有 种 种 特征 的 数据 和 每 种 数据 归属 的 标识 来 训练 分 类 模型 ， 当 
训练 完毕 后 (等 于 计算 机 学 会 了 应 该 怎么 分 类 )， 再 让 计算 机 用 这 个 分 类 模型 来 区 分 新 的 
“ 没 见 过 ”的 只 有 “特征 "、 没 有 类 别 标识 的 样本 ， 完 成 该 样本 的 分 类 。 

所 以 所 有 的 分 类 算法 不 管 怎 么 变 ， 都 是 在 解决 :“ 某 样本 是 某 对 象 ， 某 样本 不 是 某 对 象 " 
的 概率 问题 。 请 注意 ， 这 里 用 的 是 概率 问题 的 说 法 。 因 为 从 任何 方面 来 看 ， 目 前 都 没有 办 
法 保证 “ 零 误 判 "， 人 自己 尚且 无 法 做 到 ， 就 更 别 说 由 人 教会 的 计算 机 了 。 

分 类 和 回归 看 上 去 有 一 些 相似 之 处 ， 从 直观 感觉 上 去 认识 ， 可 以 这 么 感觉 : 因 变 量 是 
定量 型 的 归纳 学 习 称 为 回归 ， 或 者 说 是 连续 变量 预测 ， 因 变量 是 定性 型 的 归纳 学 习 称 为 分 
类 ,或 者 说 是 离散 变量 预测 。 

从 实时 收集 的 路 况 来 预测 某 地 段 目 前 的 行车 速度 为 多 少 米 每 秒 是 典型 的 回归 归纳 过 程 ， 
而 预测 这 个 路 段 的 行车 状态 是 “畅通 ”、“ 繁 忙 "、“ 拥 堵 ” 则 是 典型 的 分 类 归纳 过 程 。 

分 类 算法 是 一 大 类 算法 ， 都 是 用 来 解决 这 种 离散 变量 预测 的 ， 举 例如 下 。 

在 银行 的 信用 卡 审批 这 一 环节 会 用 到 分 类 的 例子 ， 应 不 应 该 给 一 个 人 办 理 信用 卡 呢 ? 
应 该 给 一 个 申请 人 分 配 多 少 金额 呢 ? 尤其 在 有 大 量 的 申请 人 及 调 额 申请 的 情况 下 。 在 这 里 
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会 比较 密集 地 用 到 分 类 算法 。 在 此 只 示意 性 地 进行 说 明 ， 毕 竟 这 个 过 程 非常 复杂 ， 而 且 不 
同 银行 的 计算 原则 也 不 尽 相 同 。 

首先 ， 办 理 信用 卡 时 ,银行 会 收集 很 多 信息 ， 除 了 身份 证 上 的 姓名 、 年 龄 外 ， 婚 姻 状 
况 、 工 作 类 别 、 年 薪 、 是 否 有 房产 、 是 否 有 汽车 、 教 育 情况 等 都 在 收集 之 列 。 在 大 量 的 历 
史 信 息 中 ， 银 行 会 根据 统计 规律 得 出 一 个 诸如 : 

适合 办 卡 = 了 (年龄 ， 婚姻 状况 ， 工 作 类 别 , 年薪 ， 是 否 有 房产 ， 是否 有 汽车 ,教育 情 
况 ) 的 函数 。 

“适合 办 卡 ” 这 个 值 就 只 有 两 个 ,一 个 是 1 (适合 ), 一 个 是 0 (不 适合 )。 而 函数 的 计 
算 过 程 是 为 了 保证 这 个 办 理 与 否 的 评判 更 加 合理 的 。 也 就 是 说 ， 是 不 是 适合 办 理 ， 是 银行 
在 用 自己 的 账目 风险 和 办 理 人 的 信用 做 一 个 权衡 。 在 统计 (训练 ) 的 过 程 中 ， 把 那些 符合 信 
誉 良好 的 人 和 群 特征 甄别 出 来 ， 这 样 再 有 申请 信用 卡 的 人 出 现时 ， 就 按照 统计 规律 判断 ， 这 
个 人 的 特征 是 更 像 那些 讲 信用 的 人 还 是 那些 不 讲 信 用 的 人 ， 然 后 做 出 是 否 办 理 的 判断 。 

而 在 赋予 额度 时 也 有 同样 的 问题 ， 同 样 要 对 这 些 属性 进行 评 佑 ， 甚 至 包括 历史 账 务 记 
录 是 否 都 为 健康 记录 。 

然后 ， 计 算 机 根据 分 类 算法 会 得 到 一 个 诸如 : 

额度 =/ (年 龄 ， 婚 姻 状 况 ， 工 作 类 别 ， 年 薪 ， 是 否 有 房产 ， 是 奋 有 汽车 ， 教 育 情况 ， 
账 务 记录 ) 的 函数 。 

这 个 子 数 看 上 去 更 像 回 归 的 学 习 方 法 ， 因 为 这 个 额度 是 一 个 具体 的 值 ， 更 像 连 续 值 域 
的 函数 ， 所 以 判断 成 一 个 回归 分 析 也 未 尝 不 可 ， 只 要 后 面 这 些 自 变 量 都 能 数值 化 。 

说 到 额度 应 该 是 多 少 ， 是 多 点 好 还 是 少 点 好 ， 这 还 是 一 个 平衡 性 的 问题 。 对 于 每 种 不 
同 的 “人 群 ” 来 说 ， 他 们 对 额度 的 需求 实际 上 是 不 同 的 ， 这 种 额度 应 该 是 他 消费 需求 的 客 
观 需 要 同时 也 是 可 承担 的 一 个 限制 值 。 额 度 给 得 过 低 ,， 会 抑制 信用 卡 的 使 用 影响 银行 的 业 
绩 ， 毕 竟 有 很 多 大 额 的 消费 无 法 支付 ;而 额度 给 得 过 高 ， 会 让 银行 的 风险 变 得 过 大 ， 因 为 
坏账 变 多 也 难以 避免 。 

经 过 训练 后 的 模型 会 得 到 一 个 相对 比较 合理 的 额度 值 ， 既 符合 该 人 群 特征 的 消费 额度 
需求 ， 又 能 够 兼顾 风险 的 保障 。 从 中 得 到 的 一 个 样本 的 特征 和 最 后 额度 之 间 的 关系 ， 其 实 
就 是 判定 这 个 样本 是 否 应 该 为 某 额 度 的 概率 最 高 。 

分 类 应 用 的 场景 比 聚 类 其 实 要 多 得 多 ,那么 分 类 的 训练 算法 有 多 少 种 呢 ? 非常 多 ， 而 
且 很 多 算法 有 变种 或 者 衍生 算法 ， 说 有 几 百 种 也 不 夸张 ,我 们 在 这 里 只 介绍 一 些 最 为 经 典 
和 普 适 的 方法 。 




















10.1 朴素 贝 叶 斯 
托马斯 : 贝 叶 斯 (Thomas Bayes, 25 1701 一 1761 年 )， 主 业 为 牧师 ， 副 业 为 数学 家 (图 
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10-19)。 他 在 数学 方面 的 主要 贡献 在 概率 论 上 ， 他 首先 将 归纳 推理 法 用 于 概率 论 基础 理论 ， 
并 创立 了 贝 叶 斯 统计 理论 ， 在 统计 决策 函数 、 统 计 推 新 、 统 
计 的 估算 等 领域 做 出 了 卓越 的 贡献 。1763 年 发 表 了 名 为 《机 
会 学 说 中 一 个 问题 的 解 》 论 著 ， 对 于 现代 概率 论 和 数理 统计 
都 有 很 重要 的 作用 。 贝 叶 斯 的 另 一 著作 《机 会 的 学 说 概论 》 
发 表 于 1758 年 。 

贝 叶 斯 决策 理论 是 主观 贝 叶 斯 派 归 纳 理论 的 重要 组 成 
部 分 。 

贝 叶 斯 决策 理论 方法 是 统计 模型 决策 中 的 一 个 基本 方法 ， 
基本 思想 如 下 

C1) 已 知 类 条 件 概 率 密度 参数 表达 式 和 先 验 概率 。 

(2 ) 利用 贝 叶 斯 公式 转换 成 后 验 概 率 。 

(3 ) 根据 后 验 概率 大 小 进行 决策 分 类 。 

简单 地 说 ， 朴 素 贝 叶 斯 算法 是 利用 统计 中 的 “条 件 概率 ”来 进行 分 类 的 一 种 算法 。 前 
面 的 章节 介绍 的 古典 概 型 的 概率 计算 方法 ， 就 是 扔 硬币 的 那 种 ， 穷 举 出 所 有 的 情况 ， 然 后 
看 看 每 种 情况 的 占 比 ， 这 都 是 基于 排列 组 合 的 思路 去 做 概率 分 析 。 

朴素 贝 叶 斯 分 类 的 方式 不 太一 样 。 贝 叶 斯 概率 研究 的 是 条 件 概 率 ， 也 就 是 研究 的 场景 
就 是 在 带 有 某 些 前 提 条 件 下 ,或 者 在 某 些 背景 条 件 的 约束 下 发 生 的 概率 问题 。 

我 们 先 给 出 这 个 著名 的 贝 叶 斯 公式 : 

WD Da, eee . D, 为 样本 空间 S 的 一 个 划分 ， 如 果 以 P(D) 表示 D, 发 生 的 概率 ， 且 
P(D) > 0 (i=1,2,…,n)。 对 于 任何 一 个 事件 x，P(x) > 0， 则 有 
P(x|D,)P(D,) 


n 


Y Pa| DPD) 





图 10-1 托马斯 - 贝 叶 斯 


P(D,|x) = 


解释 如 下 。 

在 一 个 样本 空间 里 有 很 多 事件 发 生 ，D, 就 是 指 不 同 的 事件 划分 ， 并 且 用 D, 可 以 把 整个 
空间 划分 完毕 ， 在 每 个 乙 , 事 件 发 生 的 同时 都 记录 事件 x 的 发 生 ， 并 记录 D; 事件 发 生 下 x 发 
生 的 概率 。 等 式 右 侧 的 分 母 部 分 就 是 D, 发 生 的 概率 和 D, 发 生 时 x 发 生 的 概率 的 加 和 ， 所 以 
分 母 这 一 项 其 实 就 是 在 整个 样本 空间 里 x 发生 的 概率 。P(D,| x) 这 一 项 是 指 x 发 生 的 情况 下 ， 
D) 发 生 的 概率 。 不 难看 出 ， 左 侧 和 右 侧 分 母 项 相 乘 得 到 的 是 在 全 样本 空间 里 ,在 x 发 生 的 
情况 下 又 发 生 疡 的 情况 的 概率 。 右 侧 分 子 部 分 的 含义 是 D, 发 生 的 概率 乘 以 D; A ^ B5) f 
下 又 发 生 x 的 概率 。 

所 以 最 后 等 式 两 边 就 化 简 为 


O 图 片 来 源 于 百度 图 库 。 
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P(Djx)P(x) = P(x|D)P(D)) 
也 就 是 说 ， 在 全 样本 空间 下 ,发 生 x 的 概率 乘 以 在 发 生 x 的 
情况 下 发 生 D WER, ETRE D, 的 概率 乘 以 在 发 生 D, 的 情况 
下 发 生 x 的 概率 ， 如 图 10-2 所 示 。 
左 侧 的 圈 是 x 发 生 的 概率 ， 右 侧 的 圈 是 D, 发生 的 概率 ， 中 间 
交集 的 部 分 就 是 等 号 两 边 各 自 表示 的 内 容 。 
贝 叶 斯 分 类 器 通常 是 基于 这 样 一 个 假定 :“ 给 定 目标 值 时 属性 ”图 10.? 条 件 概率 示意 图 
之 间 相 互 条 件 独 立 ”。 
基于 这 种 “朴素 ”的 假定 ， 贝 叶 斯 公式 一 般 简 写 为 
P(A|B)P(B)-P(B|4)P(A) 
上 式 也 称 为 朴素 贝 叶 斯 公式 〈 算 法、 定理 、 分 类 模型 ) 
在 有 的 资料 上 ， 会 看 到 如 下 说 法 。 
P(A) 叫做 4 事件 的 先 验 概率 ， 就 是 一 般 情况 下 ， 认 为 4 发 生 的 概率 。 
P(B|A) 叫做 似 然 度 ， 是 4 假设 条 件 成 立 的 情况 下 发 生 B 的 概率 。 
P(A|B) 叫做 后 验 概率 ,在 8 发生 的 情况 下 发 生 A 的 概率 ， 也 就 是 要 计算 的 概率 。 
P(B) 叫做 标准 化 常量 ， 和 4 的 先 验 概率 定义 类 似 ， 就 是 一 般 情况 下 ，8B 的 发 生 概 率 。 
朴素 贝 叶 斯 分 类 器 是 在 机 器 学 习 中 应 用 最 广泛 的 一 种 分 类 器 。 与 其 说 这 是 一 个 公式 ， 
不 如 说 这 是 一 种 思想 或 者 思维 方式 ， 在 人 们 生产 生活 中 使 用 朴素 贝 叶 斯 分 类 器 的 思维 解决 
问题 比 直接 套用 公式 的 机 会 多 得 多 。 


10.1.4. 天气 的 预测 

天 气 预报 一 般 是 基于 天 气 图 、 卫 星云 图 和 雷达 图 来 做 的 ， 预 报 的 内 容 很 多 ， 如 降水 情 
况 、 风 力 、 风 向 等 。 

大 气 变化 是 混沌 的 (Chaotic) 一 一 这 一 瞬间 的 天 气 情 况 会 由 于 之 后 一 系列 不 可 预测 的 扰 
动 行为 而 变 得 不 可 预测 。 也 可 以 说 ， 即 便 两 个 完全 一 模 一 样 的 瞬时 大 气 状 况 ， 由 于 之 后 一 
系列 不 可 预测 的 行为 不 断 进行 干扰 而 产生 完全 两 种 截然 不 同 的 天 气 结果 。 所 以 有 那么 一 名 
话 :“ 亚 马 逊 雨林 一 只 蝴蝶 翅膀 偶尔 振动 ， 也 许 两 周 后 就 会 引起 美国 得 克 萨 斯 州 的 一 场 龙 卷 
风 。” 这 是 20 世纪 70 年 代 ， 美 国 一 个 名 叫 洛 伦 兹 的 气象 学 家 在 解释 空气 系统 理论 时 做 的 一 
个 形象 的 比喻 ， 后 来 这 个 说 法 被 形象 地 称 为 “蝴蝶 效应 ”。 

天 气 的 预测 是 非常 困难 的 ， 变 化 快 且 计算 量 巨 大 ， 所 以 人 们 虽然 总 在 埋怨 气象 台 预 报 
不 准确 却 没有 什么 有 效 的 办 法 做 出 实质 性 的 改进 。 就 好 像 在 这 一 刻 预 测 明天 一 天 会 打 几 个 
电话 一 样 ， 问 题 是 不 知道 明天 会 打 几 个 电话 ， 也 不 知道 会 不 会 需要 打 电 话 给 别人 ， 也 同样 
不 知道 别人 会 不 会 打 电话 找 自己 ， 未 知性 在 这 个 场景 里 是 绝对 性 的 。 但 是 ， 在 预测 天 气 时 
还 是 有 一 些 手段 可 以 尝试 的 。 

曾经 有 一 段 时 间 ， 在 天 气 预报 中 有 一 种 说 法 叫做 “降水 概率 "， 如 明天 天 气 阴 转 多 云 降 
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水 概率 40%。 很 多 人 在 听 到 这 样 的 预报 时 不 知 所 云 ,“ 降 水 概率 40%， 那 明天 到 底 是 下 雨 还 
是 不 下 十 ?真是 一 种 不 负责 任 的 说 法 。” 其 实 气象 台 说 的 是 一 个 确定 的 事情 。 

在 长 期 研究 天 气 变化 的 过 程 中 ， 会 发 现 极端 的 变化 还 是 少数 ， 大 部 分 的 天 气 变化 有 一 
定 的 规律 可 循 。 虽 然 确实 不 知道 未 来 大 气 变化 的 具体 情况 ， 但 是 还 是 有 一 些 经验 可 以 借鉴 
的 ， 如 今天 天 气 非 常 阴 沉 , 那 下 十 的 可 能 性 就 是 比 响 310-1 一 个 地 区 10 天 中 每 一 天 的 
睛 白 日 的 时 候 大 很 多 。 利 用 统计 学 知识 和 手段 ， 从 大 
量 的 历史 数据 中 可 以 尝试 做 出 一 个 贝 叶 斯 分 类 模型 ， 
从 而 判断 出 降水 概率 一 一 依据 现在 的 大 气 状 况 ， 未 来 
24 小 时 降水 概率 为 多 少 。 

为 了 简化 说 明 过 程 ， 示 意 性 地 只 列 出 一 个 地 区 10 
天 中 每 一 天 的 天 气 情况 ， 如 表 10-1 所 示 。 

根据 这 10 天 的 天 气 情况 来 看 , 10 天 里 面 降水 4 次 ， 
也 就 是 降水 概率 40%， 这 是 从 全 部 统计 的 数据 来 看 的 。 
但 是 如 果 当 天 是 阴 天 呢 ? 阴 天 的 日 期 为 2、4 两 天 ， 它 
们 的 第 二 天 都 是 降水 ， 所 以 当天 是 阴 天 的 情况 下 ， 降 
水 概率 为 2 = 2=100%。 

RAAR: 











P(D,x)P(x) = P(x|Dj)P(D)) 
P(x) 就 是 阴 天 的 概率 ， 为 20%。 
P(Dj) 就 是 降水 的 概率 ， 为 40%。 
P(x|Dj) 指 的 是 降水 的 前 一 天 是 阴 天 的 概率 ， 为 50%。 
P(Djx) 是 要 求 的 当天 为 阴 天 ， 第 二 天 降水 的 概率 ， 算 出 来 为 100%。 
如 果 当 天 是 晴天 呢 ? 晴 天 的 日 期 为 1、6、7， 而 晴天 的 第 二 天 的 天 气 情况 分 别 是 阴 、 晴 、 
多 云 ， 降 水 概率 为 0%。 
P(Djx)PQO) = PCD)PD,) 
P(x) 就 是 晴天 的 概率 ， 为 30%。 
PID) 就 是 降水 的 概率 ， 为 40%。 
P(x|Dj) 指 的 是 降水 的 前 一 天 是 晴天 的 概率 ， 为 0%。 
P(Djx) 是 要 求 的 当天 为 晴天 ， 第 二 天 降水 的 概率 ， 算 出 来 为 0%。 
同样 ， 如 果 当 天 是 晴天 ， 第 二 天 天 气 为 多 云 的 概率 为 33%， 为 睛 天 的 概率 为 33%， 为 
阴 的 概率 同样 为 33%。 
再 回 过 来 看 气象 台 报 的 “明天 降水 概率 40% ”就 能 理解 了 吧 ， 从 历史 角度 来 看 真 的 就 
是 有 40% 的 天 气 会 降水 还 有 60% 不 会 降水 。 
其 实在 天 气 预 测 中 的 参数 复杂 得 多 ， 不 仅 是 当天 的 天 气 这 么 简单 的 一 个 变量 ， 而 且 温 
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度 、 湿 度 、 季 节 、 风 速 等 因素 ， 统 计 的 日 期 也 肯定 不 是 10 天 这 么 少 的 样本 ， 肯 定 是 长 期 的 
天 气 样本 信息 ， 这 些 因素 的 多 少 直接 决定 了 模型 的 复杂 程度 。 下 面 将 给 出 一 段 用 Python 进 
行 实现 的 代码 。 

在 给 出 代码 之 前 要 补充 说 明 一 下 ， 在 Python 的 Scikit-learn 库 中 虽然 对 朴素 贝 叶 斯 分 
类 算法 做 了 实现 ， 但 是 对 于 建 模 针 对 性 的 问题 ， 分 别 做 了 以 下 几 种 贝 叶 斯 分 类 的 变种 模型 
封装 。 

C1) 高 斯 朴素 贝 叶 斯 (Gaussian Naive Bayes); 

(2) 多 项 式 朴 素 贝 叶 斯 (Multinomial Naive Bayes); 

(3) 伯 努 利 朴 素 贝 叶 斯 (Bernoulli Naive Bayes ) 。 

这 3 种 训练 的 方式 非常 相近 ， 引 用 时 所 写 的 代码 也 非常 简短 。 其 中 ， 高 斯 朴素 贝 叶 斯 
是 利用 高 斯 概率 密度 公式 来 进行 分 类 拟 合 的 。 多 项 式 朴素 贝 叶 斯 多 用 于 高 维度 向 量 分 类 ， 
最 常用 的 场景 是 文章 分 类 。 伯 努 利 朴素 贝 叶 斯 一 般 是 针对 布尔 类 型 特征 值 的 向 量 做 分 类 的 
过 程 。 

本 例 使 用 高 斯 朴素 贝 叶 斯 模型 ， 代 码 如 下 : 


from sklearn.naive bayes import GaussianNB 








#0: Hb 1:0 2: 降水 3: 多云 

data table = [["date", "weather"], 
0], 
1], 


一 一 1 一 
H0 -10U 5 (QN HH 
N 
— 





o 


# 当天 的 天 气 
X = CO]; [lly BI; E]; I2], Ið]; [0l]; I3], [Xll 
# 当天 的 天 气 对 应 后 一 天 的 天 气 

ye [i; 2&5 T, 2» 0; O, 3: 15 L 

8 现在 把 训练 数据 和 对 应 的 分 类 放 入 分 类 器 中 进行 训练 

clf = GaussianNB().fit(X, y) 

p = [[1]] 

print clf.predict (p) 





10.1.2. 疾病 的 预测 

在 百度 中 输入 “基因 测序 ”进行 搜索 ， 会 发 现 很 多 公司 承接 基因 测序 的 工作 ， 其 中 也 
有 一 些 面向 一 般 个 人 的 测序 工作 。 测 试 完成 以 后 ， 这 些 公司 会 给 出 一 个 比较 完整 的 报告 ， 
里 面 记载 着 这 些 基因 的 各 种 相关 信息 。 
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其 中 ， 有 一 些 关 于 性 格 、 身 高 、 血 型 等 的 数据 ， 由 于 人 们 在 成 长 的 过 程 中 已 经 比较 了 
解 自己 的 这 些 信 息 了 ， 所 以 似乎 不 会 太 关心 。 但 是 有 一 些 内 容 还 是 会 比较 关心 的 ， 如 关于 
锥 患 疾病 的 预测 一 一 锥 患 冠 心病 的 概率 为 20%， 肉 患 阿尔 效 海 默 综 合 征 的 概率 为 5%， 钵 患 
由 金森 氏 病 的 概率 为 12% 等 。 这 些 就 是 通过 基因 测序 得 到 的 预测 结论 。 

这 个 预测 过 程 也 是 一 个 分 类 过 程 ， 训练 样本 是 大 量 的 个 体 基因 信息 和 个 人 的 疾病 信息 。 
然后 通过 建 模 分 析 ， 最 后 得 到 一 个 基因 片段 和 因 患 疾病 之 间 的 概率 转换 关系 ， 这 也 是 一 个 
比较 典型 的 朴素 贝 叶 斯 分 类 模型 。 

示意 性 地 做 一 个 训练 过 程 ， 训 练 样本 如 表 10-2 所 示 。 

表 10-2 训练 样本 


基因 片段 A | 基因 片段 B | 高 血压 | 胆 结石 
是 


























假设 能 够 得 到 一 个 关于 病 患 所 得 的 疾病 和 基因 片段 之 间 的 关系 记录 ， 这 是 一 个 客观 统 
计 的 结果 。 需 要 注意 的 是 ， 这 种 记录 是 忽略 其 他 建 模 因素 的 记录 ， 如 这 位 病 患 所 生活 的 城 
市 、 所 从 事 的 工作 、 是 否 有 烟 酒 习惯 等 ， 这 些 因素 是 没有 参与 建 模 的 ， 直 接 假 设 答 患 这 些 
疾病 只 和 基因 状况 有 关 。 

如 果 有 一 个 用 户 来 做 基因 测序 ， 测 试 结果 为 基因 片段 A、B 分 别 为 1、0， IARE R 
高 血压 和 胆 结石 两 种 疾病 的 概率 分 别 为 多 少 ? 

在 这 个 例子 里 ,需要 明确 以 下 公式 : 
P(B| A)P(A) 

P(B) 
式 中 的 每 个 值 分 别 指 代 什么 ?以 计算 高 血压 疾病 的 震 患 概率 为 例 : 

P(4) 是 先 验 概率 ， 即 全 局 性 的 高 血压 钥 患 概率 ,在 10 个 人 中 有 3 个 人 患 病 ， 即 概率 为 
3/10。 

P(B|A) 是 似 然 度 ， 表 示 高 血压 患者 中 基因 是 “10” 型 的 患者 数量 。 在 3 位 高 血压 患者 
Bee eh 即 概率 为 1/3。 

P(B) 是 标准 化 常量 ， “10” 型 基因 出 现 的 概率 ,在 10 个 人 中 出 现 3 例 ， 即 概率 为 
3/10. 

P(AB) 可 以 代入 求解 ， 得 到 1/3. 

交叉 验证 一 下 ， 先 看 全 局 中 所 有 的 “10” 型 基因 的 患者 ， 有 3 位 ， 即 4 号 .6 号 和 9 号 。 
得 高 血压 的 只 有 9 号 一 人 ， 所 以 从 这 个 角度 去 计算 也 是 1/3. 


P(A|B)- 
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下 面 给 出 完整 的 训练 和 分 类 的 代码 示例 : 
# 基因 片段 A 基因 片段 B 高 血压 胆 结石 


41: 是 0: F 

data table = [ 
[i; d. 3; 0, 
[0; 0, 0, 1l, 
[0, l1. 0, 0] 
[1, ir 0, 0]; 
ii; 1, 0, 1], 
Er, 05 0; 31 
[G, 1, 1, 1], 
[0, Or “0, 01, 
Iis; yd. 0]; 
[0, i, 0, 1i] 

] 

# 基因 片段 


X = [[1, 1], I0, Ole l0; 1], [1, 0], [1, 11, [1, O], [O, 1], IO, O], [1, O], [O, 11] 


8 高 血压 
yl = [1, Q; 0, 0, 0, 0, 1, O, 1, 0] 


# 训练 
clf = GaussianNB().fit(X, y1) 


# 预测 

p= [[1, 01] 

print clf.predict (p) 
# 结果 为 0 


a 胆 结石 
y2 = [0, 1, O0, O, 1, 1, 1, ©, 0, 1] 


8 训练 
clf - GaussianNB().fit(X, y2) 


8 预测 

p LI, 901] 

print clf.predict (p) 
# 结果 为 0 


当 模型 中 有 更 为 丰富 的 信息 ， 如 加 入 生活 的 城市 、 从 事 的 工作 、 是 否 有 烟 酒 习惯 ， 还 
可 以 加 入 是 否 多 盐 、 是 否 多 糖 等 饮食 习惯 等 内 容 来 丰富 这 个 模型 。 
10.1:3 小结 

在 本 章 的 最 后 ， 我 们 先 不 管 算法 ， 也 不 管 各 种 公式 ,我 们 就 看 看 贝 叶 斯 理论 体系 是 在 
干什么 ? 
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在 我 看 来 ， 贝 叶 斯 的 理论 体系 其 实 揭示 的 是 一 种 非常 典型 的 人 类 上 自身 的 推测 逻辑 行为 。 

例如 ， 在 黄昏 的 时 候 走 在 自己 居住 的 小 区 里 ， 光 线 很 昏暗 ， 前 面 突 然 内 过 一 个 影子 ， 
从 路 一 边 的 草 从 蹄 到 男 一 边 ， 速 度 较 快 体型 较 大 ， 其 他 信息 没 捕捉 到 。 这 时 候 大 概 会 猜测 ， 
这 有 可 能 是 一 只 较 大 的 家 犬 。 而 如 果 是 在 非洲 大 草原 上 ， 从 越野 车 里 同样 看 到 千 上 暗 的 草原 
上 蹄 过 一 个 速度 较 快 体型 较 大 的 动物 ， 也 许 会 猜测 那 是 一 头 狮 子 ， 或 者 一 头 猎豹 。 这 两 种 
猜测 对 于 捕捉 到 的 对 象 信息 都 是 非常 有 限 的 ， 而 且 内 容 相 近 ， 但 是 得 出 两 种 不 同 的 推测 。 
原因 很 简单 ， 就 是 因为 当时 的 环境 不 同 ， 导 致 的 两 种 事件 的 概率 不 同 ， 带 有 比较 明确 的 倾 
向 性 。 也 就 是 说 ， 正 常人 的 逻辑 推断 不 会 和 上 述 例子 相反 ， 不 会 在 小 区 里 推断 出 现 狮子 或 
者 猎豹 ， 也 不 会 推断 在 非洲 大 草原 上 出 现 家 犬 。 这 种 推断 的 思路 或 者 方式 本 身 就 是 贝 叶 斯 
理论 体系 的 核心 内 容 。 

朴素 贝 叶 斯 是 一 种 机 器 学 习 的 思想 ， 而 不 是 一 个 简单 的 直接 套用 的 公式 。 而 且 在 用 朴 
素 贝 叶 斯 方式 进行 分 类 机 器 学 习 时 还 经 常 需要 使 用 其 他 一 些 辅助 的 建 模 手 段 。 朴 素 贝 叶 斯 
在 生产 生活 中 作为 机 器 学 习 手 段 的 场景 确实 非常 多 ， 是 一 种 使 用 很 广泛 的 方式 ， 所 以 也 很 
重要 。 后 续 章 节 将 会 介绍 用 朴素 贝 叶 斯 算法 进行 文章 分 类 ,和 希望 读者 能 够 灵活 掌握 。 


10.2 ”决策 树 归纳 


决策 树 也 是 一 种 常用 的 方式 ， 这 种 方式 几乎 是 人 们 可 以 无 师 自 通 的 。 

在 平时 做 决定 的 时 候 常 常 也 会 有 一 些 原 则 尺度 可 以 用 一 棵 树 来 表示 ， 下 面 举 两 个 小 
例子 。 
假如 一 个 男生 安排 休息 日 的 活动 时 思路 如 图 10-3 所 示 。 








图 10-3 ”安排 活动 的 思路 


按照 优先 程度 : 
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如 果 能 约会 就 去 看 电影 ， 

若 不 能 ， 如 果 能 约 到 球 友 就 去 打球 ， 

若 不 能 ， 如 果 能 约 到 饭 友 就 去 下 馆子 ， 

若 不 能 ， 如 果 有 好 片子 就 自己 看 ， 

若 不 能 ， 如 果 有 好 玩 的 游戏 就 自己 玩 ， 

若 不 能 ， 这 些 都 没有 那 就 在 家 睡觉 。 

这 其 实 就 是 一 个 比较 典型 的 决策 树 ， 一 个 样本 ， 如 某 一 天 具体 的 客观 情况 ， 从 树 根 〈 树 
是 倒 着 从 上 往 下 长 的 ， 但 也 可 以 画 成 从 下 往 上 、 从 左 往 右 、 从 右 往 左 ， 不 影响 逻辑 的 表达 ) 
开始 一 步 一 步 最 后 落 入 决策 结果 。 

再 如 某 大 龄 女 青年 在 相亲 网 站 进行 海 选 ， 因 为 资源 太 多 而 自己 精力 有 限 ， 所 以 肯定 是 
要 进行 相亲 决策 的 ， 如 图 10-4 所 示 。 


年 龄 与 35 岁 相 比 













小 于 : 年 收入 与 20 万 元 相 比 


小 : 硕士 学 历 
以 下 : 身高 与 
180 cm 相 比 


图 10-4 ”相亲 决策 


年 龄 35 以 上 直接 拉 黑 ， 年龄 35 以 下 可 以 考虑 见面 。 

年 收入 20 万 元 以 上 的 ， 属 于 比较 有 能 力 的 高 质量 男性 ， 其 他 条 件 可 以 适当 放宽 。 

如 果 学 历 为 硕士 以 上 ， 身 高 不 够 175 cm 也 可 以 ; 如 果 学 历 为 本 科 及 以 下 ， 那 么 身高 必 
须 在 175 cm 以 上 。 

如 果 年 收入 20 万 元 以 下 ， 要 看 是 不 是 “潜力 股 ”"， 或 者 颜 值 是 否 够 高 。 

如 果 学 历 为 硕士 以 上 ， 不 够 180 cm 身高 也 可 以 ; 如 果 学 历 为 本 科 及 以 下 ， 那 么 身高 必 
须 在 180 cm 以 上 。 

本 例 同样 是 根据 样本 一 一 对 该 大 龄 女 青年 打招呼 的 男性 的 情况 从 树 根 开始 走 决策 树 ， 
最 后 决定 是 相亲 还 是 不 相亲 。 当 然 实际 生活 中 相亲 的 条 件 还 是 很 复杂 的 ， 尤 其 还 要 靠 “ 眼 
缘 ” 这 种 超级 难 量化 的 东西 ， 哪 是 这 么 一 张 图 这 两 三 个 条 件 就 全 都 表达 清楚 。 特 别 声 明 一 
下 ， 本 人 对 年 龄 、 收 入 、 学 历 及 身高 不 够 自信 的 男性 绝 没 有 歧视 的 意思 ， 这 里 只 是 做 个 无 
厘 头 的 比方 而 已 。 














WT. 身高 与 
175 cm 相 比 









以 上 : 见面 
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上 述 两 个 例子 实际 上 是 一 种 比较 “主观 ”的 决策 树 构 造 方式 ， 把 决策 树 节点 的 分 裂 条 
件 直接 决定 下 来 形成 规则 ， 但 是 下 面 重点 讨论 的 是 决策 树 归 纳 方式 。 

决策 树 归 纳 和 上 述 过 程 看 上 去 有 些 相 反 ， 是 一 个 “ 自 底 向 上 ”的 认识 过 程 。 解 释 如 下 。 

总 结 出 第 一 棵 决策 树 是 根据 某 人 长 期 以 来 进行 休息 日 行为 决策 的 条 件 和 结果 从 大 量 样 
本 中 总 结 而 来 的 ， 而 不 是 由 他 自己 经 过 深思 熟 虑 进行 总 结 和 口述 ; 那么 第 二 棵 决策 树 也 不 
是 某 人 自己 直接 口述 而 来 的 ， 而 是 她 在 网 站 上 进行 不 断 地 互动 和 相亲 ， 通 过 计算 机 学 习 归 
纳 总 结 出 来 的 。 这 种 归纳 总 结 的 过 程 比 从 陈述 而 来 的 过 程 可 能 更 为 客观 和 准确 一 一 所 谓 察 
其 言 不 如 观 其 行 。 

况且 更 多 时 候 确实 是 没有 机 会 听 别 人 陈述 ， 更 多 的 是 在 观察 和 总 结 中 认识 世界 ， 自 己 
总 结 出 知识 和 规律 。 这 才 是 整个 分 类 算法 体系 要 研究 的 内 容 。 


10.2.1 样本 收集 
为 了 把 整个 归纳 过 程 讲 述 清楚 ,还 是 沿用 上 述 相 亲 的 例子 来 做 说 明 。 可 以 想象 ， 相 亲 
网 站 的 运营 人 员 也 没有 可 能 去 跟 她 做 一 个 访谈 来 了 解 到 她 对 相亲 决策 过 程 的 描述 ， 怎 么 
JN? 如 果 能 够 拿 到 她 相亲 结果 的 反馈 ， 如 跟 谁 见 过 面 等 反馈 ， 就 很 容易 归纳 出 她 的 策略 了 。 
假设 相亲 信息 表 如 表 10-3 所 示 。 
表 10-3 ”相亲 信息 


身高 (cm) Bu md (万 元 ) 








网 站 ID 
XXXXXXX 
XXXXXXX 
XXXXXXX 
XXXXXXX 
XXXXXXX 
XXXXXXX 
XXXXXXX 
XXXXXXX 
XXXXXXX 
XXXXXXX 
XXXXXXX 
XXXXXXX 


































































































假设 拿 到 真实 的 12 个 样本 ， 由 于 网 站 ID 这 种 信息 对 大 龄 女 青年 们 做 出 相亲 决策 没有 
什么 影响 ， 所 以 直接 忽略 ， 下 面 来 看 后 面 的 数据 项 。 

图 10-4 所 示 的 相亲 决策 树 图 以 年 龄 与 35 岁 相 比 作 为 树 根 。 试 想 一 下 ， 其 他 的 数据 项 
能 不 能 做 树 根 ? 另外 ， 是 不 是 一 定 要 用 大 于 或 小 于 35 岁 作 为 树 根 分 裂 的 条 件 呢 ， 不 能 是 34 
岁 或 者 36 岁 吗 ? 是 不 是 存在 一 种 比较 科学 或 者 客观 的 方法 能 够 找到 这 个 描述 最 简洁 的 方式 
呢 ? 这 里 需要 用 到 一 个 重要 的 概念 ， 即 信息 增益 。 
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10.2.2 ”信息 增益 
介绍 信息 增益 之 前 先 要 介绍 信息 箭 ,在 第 6 章 中 提 到 过 信息 箭 的 概念 和 计算 方法 。 
re RADAR UE NIE RC 
TEBERAIC, MERD 
Tic FE 4i AH F : 


Info — -2 Pi log, Pi 


这 又 是 一 个 加 和 结果 ，m 的 数量 就 是 最 后 分 类 (决策 ) 的 种 类 ， 这 个 例子 里 m 就 是 
2 一 一 要 么 见面 要 么 不 见面 。p; 指 的 实际 是 这 个 决策 项 产生 的 概率 。 本 例 中 有 两 个 决策 项 ， 
一 个 是 N (不 相亲 )， 概 率 为 5/12， 一 个 是 Y (相亲 )， 概 率 为 7112， 这 个 概率 就 是 从 拿 到 的 
^E SE DO H iUo Be T. hy 


(e og,— M d — log, zl —0.98bit 


12 12 * 2 
tdi 
现在 要 做 的 是 挑 出 这 个 “ 树 根 ”， 挑 出 “ 树 根 ”的 原则 是 这 一 个 点 挑 出 来 一 刀 切 下 去 ， 


En 
节点 再 切 一 次 ， 切 的 次 数 越 少 越 好 。 从 业 的 定义 来 看 ， 不 难看 出 ， 焙 越 大 说 明 信 息 混乱 程 
度 越 高 ， 做 切割 时 越 复 杂 ， 要 切割 若干 次 才能 完成 ; 箭 越 小 说 明 信 息 混乱 程度 越 低 ， 做 切 
割 时 越 容易 ， 切 割 次 数 也 就 越 少 。 

所 以 试 试 看 究竟 用 哪个 字段 做 树 根 能 够 使 得 消除 信息 混杂 的 能 力 最 强 。 

假设 用 某 一 个 字段 A 来 划分 ,在 这 种 划分 规则 下 的 焙 为 


Info, = -2, p, Info(4,) 
j^ 


式 中 ，Ifo, ZE48 225 EA, 4 0.158] v HOUR, Hor v xz —3EXIAY A I PH, A 
字段 有 3 个 枚 举 值 ， 表 示 划 分 成 3 组， 如 例子 中 “学 历 ” 字 段 就 有 3 个 枚 举 值 ,那么 用 “学 
za 字段 划分 就 是 v= 3 的 情况 。 P, 表示 这 种 分 组 产生 的 概率 ， 也 可 以 认为 是 一 种 权重 ， 即 

学 历 各 自 占 的 比例 ， 这 里 大 专 是 /12， 本 科 是 5/12， 硕 士 是 5/12。Info(4)) 是 在 当前 分 

EE ak 

RAKEAN A FRORA P. UG TE EE. 

把 上 面 的 公式 展开 : 
Info 王 一 [( 大 专项 )+( 本 科 项 )+( 硕 士 项 ) ] 

=-[ (PeX X280) (p X ABO ED, X SEAHSS)] 


X fi l 5 5 (4 l 
= dom aytda AL. aa ,54.—-log, 1 
E E frt. zl BES z i) BET iei) 
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FERES NES -0737-2x132 | s 言 *(-4x0322-3x232] 
2422) 12V5 5 245 5 


~ 0.872 
信息 增益 如 下 : 
Gain (学 历 )=Info 一 Info +y 
=0.98—0.872 
=0.108 bit 


这 就 是 用 “学 历 ” 字 段 作为 根 的 信息 增益 。 如 果 和 希望 挑选 到 的 是 增益 最 大 的 那 种 方式 ， 
那么 还 需要 试 试 其 他 字段 是 否 有 更 大 的 信息 增益 。 


10.2.3 ”连续 型 变量 

试 试用 “年 龄 ”字段 看 是 否 能 取得 最 大 的 信息 增益 ， 但 是 “年 龄 ”字段 比较 麻烦 ， 它 
是 一 个 连续 型 的 字段 ， 不 像 上 述 “ 学 历 ” 字 段 ， 就 是 3 个 枚 举 值 。 这 种 方法 通常 是 在 这 个 
字段 上 找 一 个 最 佳 的 分 裂 点 ， 然 后 一 刀 切 下 去 ， 让 它 的 信息 增益 最 大 。 

在 一 个 连续 的 字段 上 可 以 尝试 用 如 下 做 法 。 

先 把 这 个 字段 中 的 值 做 一 个 排序 ， 从 小 到 大 。 

4EHb. 25. 25, 28, 28, 29, 30, 33, 34, 35, 36, 40. 46, 

这 一 刀 可 以 在 任意 两 个 数字 之 间 切 下 去 ， 切 分 点 就 是 这 两 个 数字 加 和 再 平均 ， 如 25 和 
25 之 间 就 是 25，30 和 33 之 间 就 是 31.5。 要 用 与 用 “学 历 ” 字 段 分 割 类 似 的 方法 去 做 切割 。 
如 果 有 个 数字 ， 那么 就 有 n1 种 切 法 ， 究 竟 哪 种 好 只 能 一 个 一 个 地 试 。 但 是 也 可 以 选择 
中 位 点 ， 然 后 一 个 一 个 往 两 边 去 试 。 

如 果 猜 测 这 个 字段 值 大 小 确实 对 最 终 决 策 有 比较 大 的 影响 ， 如 确实 年 龄 是 一 个 很 重要 
的 问题 ， 大 于 某 个 值 就 直接 淘汰 了 ， 小 于 某 个 值 就 有 很 大 机 会 ， 那 么 从 中 位 点 往 两 边 试 ， 


第 一 次 第 vy 个 点 (中 位 点 )， 第 二 次 v-1 个 点 ,第 三 次 v+1 个 点 ， 第 四 次 v-2 个 点 ， 第 五 次 
v+2 个 点 ， 以 此 类 推 。 每 一 次 切割 都 会 产生 一 个 信息 焙 ， 一共 v-1 个 信息 焙 ， 当 发 现 某 一 


个 点 加 比 它 左右 两 边 的 m-1 和 m+1l 点 的 信息 粹 都 要 小 时 ， 就 认为 找到 了 这 个 点 。 但 是 这 
个 前 提 条 件 太 强 了 ， 要 求 确实 存在 一 个 分 水 岭 式 的 分 割 点 。 

下 面 我 们 还 是 老 老实 实 把 这 n-1 种 方式 都 计算 一 次 找到 这 个 信息 粹 最 小 的 点 吧 。 

那 我 们 下 面 给 出 两 段 Python 代码 来 说 明 枚 举 类 型 的 字段 的 期 望 信息 和 连续 类 型 的 字段 
的 期 望 信息 计算 方法 。 

“学 历 ” 字 段 分 制 ， 代 码 如 下 : 

# 学 历 分 类 中 大 专 、 本 科 、 硕 士 占 比 


education = (2.0 / 12, 5.0/ 12, 5.0 / 12) ~ 
# 大 专 分 类 中 相亲 占 比 
junior college = (1.0 / 2, 1.0 / 2) 


# 本 科 分 类 中 相亲 占 比 
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undergraduate = (3.0 / 5, 2.0 / 5) 
# 硕士 分 类 中 相亲 占 比 

master = (4.0 / 5, 1.0 / 5) 

# 学 历 各 分 类 中 相亲 占 比 


date per = (junior college, undergraduate, master) 


4 “相亲 ”字段 划分 规则 下 的 灶 
def info date(p): 
info = 0 
for v in p: 
info += v * log(v, 2) 
return info 


PERA "SEU FRR T POT 
def infoA(): 
info = Q 
for i in range (len (education) ): 
info += -education[i] * info date(date per[il) 
return info 
print infoA() 
4 结果 为 0.872 032 787 226 


“年 龄 ”字段 分 割 : 


# 年 齿 
age = [25, 25, 28, 28, 29, 30, 33y 34, 35, 36, 40, 46] 


# 是 否 相亲 1: 是 0: F 
date e [U, 1, d, D, dy X; X. 3, EQ 0, 0, 0] 


# 这 里 从 年 龄 28、29 中 间 切 开 
# 左 、 右 分 类 中 的 数量 占 总 数 的 百分比 
split per = (4.0 / 12, 8.0 / 12) 


8 左边 分 类 中 相亲 占 比 
date left =. (1.0 / 2, 1.0 / 2) 


# 右边 分 类 中 相亲 占 比 
date right = (5.0 / 8, 3.0 / 8) 


# 左 、 右 各 分 类 中 相亲 占 比 
date per = (date left, date right) 


#“ 相 亲 ” 字 段 划分 规则 下 的 灶 
def info date(p): 
info = 0 
for v in p: 
info += v * log(v, 2) 
return info 


# 左 、 右 分 类 划分 规则 下 的 炳 
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def infoA(): 
info - 0 
for i in range(len(split per)): 
info += -split per[i] * info date(date per[il) 
return info 
print infoA() 
4 结果 是 0.969 622 668 617 


从 “年 龄 ”字段 的 28 和 29 P^ (& rh IRI ATJE ENRE, MEAK, JLFÆ 0.97, 很 
接近 1 了 ， 这 说 明 这 一 刀 切 得 很 没有 效率 ， 还 要 寻找 其 他 切 分 位 置 。 修 改 以 下 代码 ， 就 可 
VA 1-8] Hc ftbi 77 RAIRE 

# 左 、 右 分 类 中 的 数量 占 总 数 的 百分比 

split per = (4.0 / 12, 8.0 / 12) 

# 左边 分 类 中 相亲 占 比 

date left = (1.0 / 2, 1.0 / 2) 

# 右边 分 类 中 相亲 占 比 

date right - (5.0 / 8, 3.0 / 8) 

最 后 归纳 总 结 一 下 构造 整 棵 树 时 的 思路 ， 应 该 是 遵循 下 面 这 样 的 方式 : 

第 一 步 ， 找 到 信息 增益 最 大 的 字段 A 和 信息 增益 最 大 的 切 分 点 v (不 管 是 连续 类 型 还 是 
枚 举 类 型 )。 

第 二 步 ， 决 定 根 节点 的 字段 A 和 切 分 点 v。 

第 三 步 ， 把 字段 A 从 所 有 待 选 的 字段 列表 中 拿 走 ， 再 从 第 一 步 开 始 找 。 注 意 这 时 相当 
于 决策 已 经 走 了 一 步 了 ， 如 果 在 根 节点 上 已 经 分 裂 成 两 个 分 支 ， 那 么 每 一 个 分 支 各 自 又 形 
成 一 个 完整 的 决策 树 的 选择 过 程 ， 注 意 不 同 点 。 不 同 的 是 : 可 选 的 字段 不 一 样 了 ， 因 为 A 
字段 被 去 掉 了 ; 此 外 ， 在 这 个 分 支 上 的 样本 也 比 原 来 少 了 ， 因 为 两 个 分 支 分 割 了 整个 样本 ， 
使 得 一 个 部 分 分 文 只 拥有 样本 的 一 部 分 。 

这 个 过 程 只 是 看 上 去 比较 曼 嗪 而 已 ， 用 程序 套 算 时 还 是 比较 快 的。 缺点 是 这 个 归纳 出 
来 的 树 可 能 会 非常 复杂 ， 分 支 和 层次 极 多 ， 这 样 在 可 视 化 上 也 有 问题 ， 在 实际 用 新 样本 来 
做 分 类 时 也 会 感觉 操作 麻烦 。 

还 可 以 用 “ 减 校 法 ”进行 树 的 修剪 ， 有 “前 减 校 ”和 “后 剪 校 ” 两 种 方法 。“ 前 前 枝 ” 
就 是 提前 终止 树 的 构造 ， 如 只 用 了 2 个 字段 ， 两 层 树 就 已 经 构造 完整 个 树 了 ， 保 持 了 树 的 
精简 性 。“ 后 剪 枝 ” 就 是 等 树 完全 构造 完 ， 如 建 模 一 共 使 用 7 个 字段 ， 全 都 用 上 ， 这 样 就 形 
成 了 一 个 7 层 的 树 ， 如 果 一 个 分 支 下 分 类 已 经 比较 “纯粹 ”了 ， 就 没 必要 再 通过 其 他 条 件 
分 文 来 进行 细 化 ， 那 么 整个 梳 可 以 直接 减 掉 变 成 一 个 叶 。 

剪 校 这 个 动作 其 实 是 在 分 类 精度 上 和 算法 繁琐 的 程度 上 做 了 一 个 妥协 ， 这 种 思路 几乎 
贯穿 所 有 的 分 类 算法 的 始终 。 在 第 8 章 中 介绍 过 过 拟 和 欠 拟 的 问题 ， 过 拟 的 诱因 之 一 是 更 
重视 精度 的 思路 ， 欠 拟 的 诱因 之 一 是 更 重视 简洁 度 的 思路 。 因 此 ， 不 能 武断 地 说 过 拟 不 好 
或 者 欠 拟 不 好 ， 而 是 要 在 方案 的 收益 和 成 本 之 间 做 一 个 权衡 。 这 一 点 在 具体 方案 落地 的 时 
候 很 重要 。 
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10.3 ”随机 森林 


随机 森林 算法 是 一 种 并 行 性 比较 好 的 算法 规则 ， 一 再 强调 的 是 ， 在 数据 挖掘 中 的 很 多 
算法 实际 是 一 种 问题 处 理 方式 或 者 原则 ， 而 不 是 针对 某 一 个 具体 的 问题 所 书写 的 代码 。 这 
本 身 也 是 一 个 哲学 上 的 矛盾 ， 针 对 性 越 强 ， 深 度 越 大 ， 适 应 度 越 窄 ;而 反 过 来 ， 针 对 性 约 
弱 ， 深 度 越 小 ， 适 应 度 就 越 宽 。 在 学 习 数 据 挖掘 诸多 算法 时 应 该 还 是 更 多 注重 这 些 适 应 度 
较 宽 的 算法 思路 。 

看 到 “森林 ”这 个 词 ， 很 容易 联想 到 前 一 节 介 绍 的 决策 树 ， 很 多 很 多 树 就 可 以 构成 森 
林 。 确 实 ， 和 前 面 的 决策 树 归 纳 的 过 程 类 似 ， 随 机 森林 是 一 个 构造 决策 树 的 过 程 ， 只 是 它 
不 是 要 构造 一 棵 树 ， 而 是 构造 许多 棵 树 。 

在 决策 树 的 构造 中 会 遇 到 过 拟 和 欠 拟 的 问题 ， 在 随机 森林 算法 中 ， 通常 在 一 棵 树 上 是 
不 会 追求 及 其 精确 的 拟 合 的 ， 而 相反 ,希望 的 是 决策 树 的 简洁 和 计算 的 快速 。 

步骤 和 原则 如 下 。 

C1) 随机 挑选 一 个 字段 构造 树 的 第 一 层 。 

(2) 随机 挑选 一 个 字段 构造 树 的 第 二 层 。 

(3) 随机 挑选 一 个 字段 构造 树 的 第 nn 层 。 

(4) 在 本 棵 树 建造 完毕 后 ， 还 需要 照 这 种 方式 建造 m 棵 决策 树 。 

补充 原则 如 下 。 

C1) 树 的 层级 通常 比较 浅 。 

( 2) 每 棵 树 的 分 类 都 不 能 保证 分 类 精度 很 高 。 

(3) 一 个 样本 进行 分 类 时 同时 对 这 m 棵 决策 树 做 分 类 概率 判断 。 

人 们 会 为 一 个 训练 集 构 造 若干 棵 决策 树 ， 通常 可 能 是 几 十 甚至 上 百 棵 ， 具 体会 根据 样 
本 属性 的 数量 和 杂乱 程度 来 决定 。 当 有 新 样本 需要 进行 分 类 时 ， 同 时 把 这 个 样本 给 这 几 棵 
树 ， 然 后 用 类 似 民 主 投票 表决 的 方式 来 决定 新 样本 应 该 归属 于 哪 类 ， 哪 一 类 “得 票 多 ”就 
归 为 哪 一 类 。 

下 面 把 上 述 例子 用 随机 森林 的 方式 来 实现 ， 代 码 如 下 : 


from sklearn.ensemble import RandomForestClassifier 


# 学 历 0: KẸ 2: 硕士 1: 本 科 

#' 年 龄 '，，' 身高 '，，' 年 收入 '，' 学 历 ， 
X= [ 

[25, 17$, 15, O0], 

[33, 190, 19, 0], 

[28, 180, I8, 2], 

[25, 178, I8, 2], 

[46, 100, 100, 2], 
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[40, 170, 170, 1], 
[34, 174, 20, 2]; 
[36, 181, 55, 1], 
[35, 190, 25, 2], 
[30, 180, 35, Il, 
[28;, Tris 30, 1]; 
[29, 176, 36; 1], 


# 有 和 否 相亲 0:N 1:Y 
4 m RU le La Lr Oy Ve dy 0, 1s 1, Ov ÀJ] 


# 现在 把 训练 数据 和 对 应 的 分 类 放 入 分 类 器 中 进行 训练 
clf = RandomForestClassifier().fit(X, y) 


# 预测 下 面 此 人 是 否 相亲 
p = [[28, 180, 18, 2]] 
clf.predict (p) 


# 输出 结果 是 [1] X 
这 里 验证 用 的 是 训练 样本 中 的 第 3 个 [28, 180, 18, 2]， 而 第 3 个 样本 也 确实 是 相亲 的 对 
象 ， 验 证 成 功 。 同 样 可 以 用 更 多 的 样本 来 进行 训练 ， 这 样 的 预测 结果 会 更 加 准确 。 


10.4 KBR RKN 


隐 马 尔 可 夫 模 型 ( Hidden Markov Model, HMM) 最 初 由 L. E. Baum 发 表 在 20 世纪 70 
年 代 一 系列 的 统计 学 论文 中 ， 随 后 在 语言 识别 、 自 然 语言 处 理 以 及 生物 信息 等 领域 体现 了 
很 大 的 价值 。 

还 有 一 个 概念 叫做 “马尔 可 夫 链 ”( 也 有 写成 马尔 科 夫 链 或 者 马尔 科 夫 模型 的 )。 这 两 
者 有 什么 关系 呢 ? 马尔 可 夫 链 是 一 个 数学 概念 ， 因 为 它 由 俄罗斯 物理 学 家 兼 数学 家 安 德 
烈 . 马尔 可 夫 CA.A.Markov) 提出 而 得 名 。 马 尔 可 夫 链 的 核心 是 ， 在 给 定 当 前 知识 或 信息 
的 情况 下 ， 观 察 对 象 过 去 的 历史 状态 对 于 预测 将 来 是 无 关 的 。 也 可 以 说 ， 在 观察 一 个 系统 
变化 的 时 候 ， 它 下 一 个 状态 (第 n+l 个 状态 ) 如 何 的 概率 只 需要 观察 和 统计 当前 状态 (第 
个 状态 ) 即 可 以 正确 得 出 。 另 外 ， 在 一 些 资料 上 会 看 到 贝 叶 斯 信念 网 络 的 分 类 模型 概念 。 隐 
马尔 可 夫 链 和 贝 叶 斯 信念 网 络 的 模型 思维 方式 有 些 接近 ， 区 别 在 于 ， 隐 马尔 可 夫 链 的 模型 
更 为 简化 ， 或 者 可 以 认为 隐 马 尔 可 夫 链 就 是 贝 叶 斯 信念 网 络 的 一 种 特例 。 而 且 隐 马尔 可 夫 
链 是 一 个 双重 的 随机 过 程 ， 不 仅 状态 转移 之 间 是 一 个 随机 事件 ， 状 态 和 输出 之 间 也 是 一 个 
随机 过 程 ， 如 图 10-5 所 示 。 

在 一 个 完整 的 观察 过 程 中 有 一 些 状态 的 转换 ， 即 图 10-5 中 用 虚线 问 表 示 的 X 到 XL 
在 观察 中 Xi 到 X 的 状态 存在 一 个 客观 的 转化 规律 ， 但 是 没 办 法 直接 观测 到 ， 观 测 到 的 是 
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每 个 X 状态 下 的 输出 0O， 即 0, 到 01。 需要 通过 0) 到 Or 这些 输 出 值 来 进行 模型 建立 和 计 
算 状 态 转移 的 概率 。 i E 
为 了 比较 容易 理解 整个 过 程 ， 下 面 举 一 个 很 有 趣 的 “3 全 — x 
例子 e。 | | 
假设 有 3 ARRET "oM M 
"cS—^r Toe Wr (KAARTA D6), 6 
^ii, &^ iH (1, 2, 3, 4, 5, 6) 出 现 的 概率 是 116。 o 状态 转移 | ses 
B-A e T3&— ^ Vr Cx BT y DA), 每 
个 面 (1, 2, 3, 4) 出 现 的 概率 是 1/4。 
第 三 个 仍 子 有 8 个 面 (KARTA D8), S18 (1, 2, 3, 4, 5, 6, 7, 8) 出 现 
的 概率 是 1/8. 
当然 用 其 他 点 数 的 骨 子 原理 是 一 样 的 。3 种 货 子 和 掷 山 子 可 能 产生 的 结果 如 图 10-6 
所 示 。 




















图 10-5 隐 马 尔 可 夫 链 示意 图 
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先 随机 选择 一 个 仍 子 ， 然 后 再 用 它 搓 出 一 个 数字 ， 并 记录 下 这 个 选择 和 数字 。 先 从 3 
个 仍 子 里 挑 一 个 ， 挑 到 每 一 个 仍 子 的 概率 都 是 113 。 然 后 掷 仍 子 ， 得 到 一 个 数字 , 1.2.3.4, 
5、6、7、8 中 的 一 个 。 不 停 地 重复 上 述 过 程 ， 会 得 到 一 串 数字 ， 每 个 数字 都 是 1、2、3、4、 
5、6、7、8 中 的 一 个 。 

例如 ， 可 能 得 到 这 么 一 串 数字 ONBCEIOI0:1.6.3.5,.2., 7.3. 5.2.4, X 
串 数字 叫做 可 见 状态 链 ， 也 就 是 记录 的 这 组 数字 ， 也 是 前 面 介绍 的 0,。 但 是 在 隐 马 尔 可 夫 
模型 中 ， 不 仅仅 有 这 人 么 一 串 可 见 状 态 链 ， 还 有 一 串 隐 含 状 态 链 。 在 这 个 例子 里 ， 这 串 隐 含 
状态 链 就 是 选 出 的 骨 子 的 序列 。 例 如 ， 隐 含 状态 链 有 可 能 是 D6、D8、D8、D6、D4、D8、 





O 该 例子 来 源 于 知 乎 ， 作 者 : Yang Eninala， 链 接 : http://www.zhihu.com/question/20962240/answer/33438846， 
有 部 分 删改 。 
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D6.D6,D4,D8, nl 10-7 所 示 。 如 果 继 续 选 取 和 投掷 还 能 得 到 这 个 状态 链 上 更 多 的 节点 。 
一 般 来 说 ，HMM 中 的 马尔 可 夫 链 其 实 是 指 隐 含 状 态 链 ， 因 为 实际 是 隐 含 状态 (所 选 的 货 子 ) 
之 间 存 在 转换 概率 (Transition Probability)， 如 图 10-8 所 示 。 


[os] [ps HHH hihihihihi = 
© 0600000 0 0 0 


图 例 说 明 : 
一 个 隐 含 状态 一 > 从 一 个 隐 含 状态 到 下 一 个 隐 含 状态 的 转换 
GQ 一 个 可 见 状态 | 从 一 个 隐 合 状态 到 一 个 可 见 状态 的 输出 


图 10-7 隐 马 尔 可 夫 模 型 示意 图 


在 这 个 例子 中 ，D6 的 下 一 个 状态 是 D4、D6、D8 的 
概率 都 是 1/3。D4、D8 的 下 一 个 状态 是 D4、D6、D8 的 
转换 概率 也 都 一 样 是 3， 虽然 在 示例 中 没有 夯 出 所 有 的 
情况 ,但 是 从 古典 概 型 的 角度 来 分 析 ， 应 该 是 这 样 的 ， 而 / EN 
Sk EET LACK B RC 3:8 rp 48 8 poc EE 19 6 MR (NÀNG 
的 统计 结果 。 这 样 设 定 是 为 了 最 开始 容易 说 清楚 ， 其 实 是 
可 以 随意 设 定 转换 概率 的 。 例 如 ， 可 以 这 样 定义 ，D6 后 ”图 10.8 隐 含 状态 转换 关系 示意 图 
面 不 能 接 D4, D6 后 面 是 D6 的 概率 是 0.9， 是 D8 的 概率 
是 0.1。 也 可 以 假设 山子 不 是 3 个, 而 是 有 10 个 , 其 中 D4 有 2 个 , D6 有 9 个 , D8 有 1 个 ， 
等 等 。 这 样 就 是 一 个 新 的 HMM， 因 为 转换 概率 肯定 是 与 当前 的 例子 不 同 的 。 而 同样 的 ， 尽 
管 可 见 状态 之 间 没 有 直接 的 转换 概率 ,但 是 隐 含 状态 和 可 见 状态 之 间 有 一 个 概率 叫做 输出 
概率 (Emission Probability ) 。 

就 本 例 来 说 ， 六 面 骨 子 ( D6 ) 产生 1 的 输出 概率 是 1/6。 产 生 2、3、4、5、6 的 概率 也 
都 是 116。 同 样 可 以 对 输出 概率 进行 其 他 定义 。 例 如 ， 有 一 个 被 赌场 动 过 手脚 的 六 面 货 子 ， 
掷 出 来 是 1 的 概率 更 大 ， 是 112， 掷 出 来 是 2、3、4、5 、56 的 概率 是 1/10。 

其 实 对 于 HMM 来 说 ， 如 果 提 前 知道 所 有 隐 含 状态 之 间 的 转换 概率 和 所 有 隐 含 状态 到 
所 有 可 见 状态 之 间 的 输出 概率 ， 进 行 模拟 是 相当 容易 的 。 但 是 应 用 HMM 模型 时 ， 往 往 缺 
KRED, ARIER TAJLA, ARTEA, BERAE RRK RTF]; 
ARREARS AR AERE B ARS, R FARRE., WRAAE A AE pce 
缺失 的 信息 ， 就 成 了 一 个 很 重要 的 问题 。 这 些 算 法 将 会 在 后 续 章 节 详 细 介绍 。 

和 HMM 模型 相关 的 算法 主要 分 为 3 类， 分 别 解决 3 种 问题 。 

问题 1 : AW T-G LER ( 隐 含 状态 数量 )、 每 种 山子 是 什么 〈 转 换 概率 )、 根 据 掷 人 般 子 
掷 出 的 结果 《〈 可 见 状态 链 )， 想 知道 每 次 掷 出 来 的 都 是 哪 种 人 驶 子 ( 隐 含 状态 链 ) 。 
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这 个 问题 在 语音 识别 领域 叫做 解码 问题 。 这 个 问题 其 实 有 两 种 解法 ， 会 给 出 两 个 不 同 
的 答案 。 每 个 答案 都 正确 ， 只 是 这 些 答案 的 意义 不 一 样 。 第 一 种 解法 求 最 大 似 然 状 态 路 径 ， 
通俗 地 说 ， 就 是 求 一 串 角 子 序列 ， 这 串 骨 子 序列 产生 观测 结果 的 概率 最 大 。 第 二 种 解法 不 
是 求 一 组 仍 子 序列 ， 而 是 求 每 次 掷 出 的 仍 子 分 别 是 某 种 般 子 的 概率 。 

例如 ， 看 到 结果 后 ， 可 以 求 得 第 一 次 掷 山 子 是 D4 的 概率 是 0.5, D6 的 概率 是 0.3，D8 
的 概率 是 0.2。 

问题 2 : 知道 仍 子 有 几 种 ( 隐 含 状态 数量 )、 每 种 货 子 是 什么 (转换 概率 )、 根 据 掷 货 子 
掷 出 的 结果 〈 可 见 状 态 链 )， 想 知道 掷 出 这 个 结果 的 概率 。 

这 个 问题 看 似 意义 不 大 ， 因 为 掷 出 来 的 结果 很 多 时 候 都 对 应 了 一 个 比较 大 的 概率 。 这 
个 问题 的 目的 其 实 是 检测 观察 到 的 结果 和 已 知 的 模型 是 否 吻合 。 如 果 很 多 次 结果 都 对 应 了 
比较 小 的 概率 ， 那 么 就 说 明 已 知 的 模型 很 有 可 能 是 错 的 ， 有 人 偷偷 把 骨 子 换 了 。 

问题 3 : 知道 般 子 有 几 种 ( 隐 含 状态 数量 )， 不 知道 每 种 钥 子 是 什么 (转换 概率 )， 观 测 
5I R UCET HZ AR (可 见 状 态 链 )， 想 反 推 出 每 种 货 子 是 什么 (转换 概率 )。 这 个 问题 很 
重要 ， 因 为 这 是 最 常见 的 情况 。 很 多 时 候 只 有 可 见 结 果 ， 不 知道 HMM 模型 中 的 参数 ， 需 
要 从 可 见 结果 估计 出 这 些 参数 ， 这 是 建 模 的 一 个 必要 步骤。 


10.4.1 维特 比 算法 

接着 上 述 例子 说 问题 1， 解 最 大 似 然 路 径 问 题 。 

A3 ART: AMR, MR, /NDEHE. EANET 10 次 的 结果 (1、6、3、5、2、7、 
3、5、2、4 )， 但 是 不 知道 每 次 用 了 哪 种 仍 子 ， 而 想 知 道 最 有 可 能 的 骨 子 序列 。 其 实 最 简单 
的 方法 就 是 穷 举 所 有 可 能 的 骨 子 序列 ， 然 后 根据 古典 概 型 的 分 布 特点 来 计算 每 个 序列 对 应 
的 概率 ， 再 从 中 把 对 应 最 大 概率 的 序列 挑 出 来 。 如 果 马 尔 可 夫 链 不 长 ， 这 种 方法 是 可 行 的 。 
如 果 马 尔 可 夫 链 长 ， 穷 举 的 数量 太 大 ， 就 很 难 完成 了 。 另 外 一 种 很 有 名 的 算法 叫做 维特 比 
算法 (Viterbi algorithm ) 。 要 理解 这 个 算法 ， 先 看 几 个 简单 的 例子 。 

首先 ， 如 果 只 掷 一 次 朋 子 ， 如 图 10-9 所 示 。 

结果 为 1， 对 应 的 最 大 概率 骨 子 序列 就 是 D4， 因 为 D4 产生 1 的 概率 是 14， 高 于 1/6 
和 1/8。 把 这 个 情况 拓展 ， 撕 两 次 崩 子 ， 如 图 10-10 所 示 。 


图 
i 
图 10-9. WRT 图 10-10 WART 
结果 分 别 为 1、6。 这 时 问题 变 得 复杂 起 来 ， 要 计算 3 ME, 23S ARTE D6., 


D4, D8 的 最 大 概率 。 显 然 ， 要 取 到 最 大 概率 ， 第 一 个 避 子 必须 为 D4。 这 时 ， 第 二 个 骨 子 
取 到 D6 的 最 大 概率 如 下 : 
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P2(D6) = P(D4)* P(1| D4)* P(D6|D4)* P(6 | D6) 


Efi AU n Ao a d 5 — T x8) D4 的 概率 (1/3) 乘 以 在 选 到 D4 BS fiio PARU 
1 点 的 概率 (1/4), P(D6|DA) 4&38 58 — Ar tT 3€ 8] DA IS fU F8 — tc 3€ 8) D6 的 概率 
(1/3), digi —JBids:6 —- BT 3€8] D6 的 情况 下 掷 出 6 点 的 概率 (1/6). 

同样 的 ， 可 以 计算 第 二 个 仍 子 是 D4 D8 时 的 最 大 概率 。 发 现 ， 第 二 个 山 子 取 到 D6 
的 概率 最 大 。 而 使 这 个 概率 最 大 时 ， 第 一 个 骨 子 为 D4。 所 以 最 大 概率 [ 5L PL 
TIFI E D4, D6, MHR, DEG KRT, WE 10-11 所 示 。 i i i 

EE, ABANTE D6, D4, D8 的 最 大 概率 。 再 次 发 现 ， m 
ERIR, BARTAU D6. A, 98 — ef BUR] D4 的 
最 大 概率 如 下 : 





图 10-11 


P3(D4) = P2(D6)* P(D4 | D6)* P(31D4) 
É 23:5. -1 
216 3 4 2592 

AT EEPIATSSCT FE PEERS FE, veu DGTSESS — Té D6 或 D8 时 的 最 大 概 
率 。 可 以 发 现 ， 58 — 8d 508] D4 WREAK. MERNEK, 58 — IET y D6, 
BARTA DA. MIRKE RTIII E D4, D6, D4, MARET 1 到 3 次 可 以 算 ， 
掷 多 少 次 都 可 以 ， 以 此 类 推 。 l 

TIRER, ERRAR TIEI E P ILR o 

首先 ， 不 管 序列 多 长 ， 要 从 序列 长 度 为 1 算 起 ， 算 序列 长 度 为 1 RE AT BO c 
大 概率 。 然 后 ， 逐 渐 增 加 长 度 ， 每 增加 一 次 长 度 ， 重 新 算 一 遍 在 这 个 长 度 下 最 后 一 个 位 置 
取 到 每 个 骨 子 的 最 大 概率 。 因 为 上 一 个 长 度 下 取 到 每 个 散 子 的 最 大 概率 都 算 过 了 ， 重 新 计 
算 其 实 不 难 。 当 算 到 最 后 一 位 时 ， 就 知道 最 后 一 位 是 哪个 蜗 子 的 概率 最 大 了 。 然 后 ， 要 把 
对 应 这 个 最 大 概率 的 序列 从 后 往 前 推出 来 。 这 就 是 在 刚刚 毛 骨 子 的 例子 中 展示 出 的 完整 维 
特 比 算法 。 

维特 比 算法 的 提出 者 叫 安德鲁 维特 比 ， 美 籍 犹太 人 ， 高 通 首席 科学 家 ， 同 时 也 是 高 
通 公 司 创始 人 之 一 。 维 特 比 算法 的 目的 也 比较 单纯 ， 即 找 出 可 能 性 最 大 的 隐藏 序列 。 

这 种 算法 研究 是 一 种 链 的 可 能 性 问题 。 现 在 应 用 最 广 的 领域 是 CDMA 通信 以 及 打字 提 
示 功 能 。 

通信 系统 是 一 个 非常 复杂 的 系统 ,不管 是 人 们 用 的 手机 的 通信 ， 还 是 家 里 无 线路 由 器 
的 WiFi 通信 ， 还 是 光纤 里 的 光波 通信 ， 涉 及 一 系列 的 问题 。 例 如 ， 在 进行 语音 通话 时 要 把 
声音 信号 的 模拟 信号 进行 抽样 ， 再 用 傅 里 叶 变 换 变 成 余 改 波 组 成 的 频 域 信号 ， 再 把 频 域 信 
号 进行 数字 化 传输 ， 青 用 傅 里 叶 首 变换 变 回 时 域 信和 号， 再 由 模拟 放大 电路 变 成 声音 信号 放 
出 来 。 而 在 一 个 小 区 域 里 大 量 的 人 都 用 的 是 一 个 手机 基站 ， 会 不 会 出 现 把 基站 挤 满 了 没 办 
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法 打 电 话 的 情况 呢 ? 

相信 大 家 都 有 体会 ， 在 没有 微 信 的 时 候 ， 手 机 基站 最 忙 的 时 候 就 是 除夕 钟 声 敲 响 的 前 
后 了 。 打 电话 打 不 出 去 ， 别 人 也 打 不 进来 ， 短 信 发 起 来 也 是 很 困难 ， 因 为 带宽 被 接 通 的 这 
些 电话 占 满 了 。 每 一 台 手 机 和 基站 之 间 通 话 都 是 要 占用 通信 带宽 的 ， 带 宽 有 限 ， 所 以 在 手 
机 通话 负荷 已 经 超过 手机 基站 的 情况 下 ， 基 站 就 没 办 法 分 配 足 够 的 频带 (带宽) 给 新 接 人 的 
手机 用 了 ， 电 话 自然 打 不 出 去 也 打 不 进来 。 对 于 基站 来 说 ， 通 信 频 带 肯定 是 有 这 样 的 局 限 
性 的 ， 通信 要 保证 每 个 接 入 的 手机 都 要 正常 通话 一 般 有 以 下 两 种 办 法 。 

C1) 每 个 人 用 不 同 的 频段 。 每 个 手机 各 用 各 的 频率 ， 当 然 就 不 会 干扰 了 。 

(2) 大 家 轮流 “说 话 ”。 把 时 间 打 碎 ， 如 一 秒 钟 分 成 几 十 个 小 段 ， 每 个 手机 被 分 配 只 在 
这 个 小 段 和 基站 用 某 个 频率 通信 ， 下 次 通信 就 得 到 下 一 秒 去 。 这 样 所 有 的 手机 虽然 用 的 是 
同一 个 频率 , 但 是 大 家 “说 话 ” 都 很 紧凑 ,1 秒 钟 收集 到 的 信息 压缩 在 几 十 分 之 一 秒 发 过 去 。 
时 间 上 错开 ， 也 不 会 有 问题 。 

当然 ， 还 有 一 种 方法 就 是 两 种 方案 混搭 ， 即 分 配 不 同 的 频段 ， 又 分 配 不 同 的 时 间 。 这 
样 一 个 基站 就 能 容纳 几 百 个 人 同时 使 用 了 。 

还 有 一 种 看 上 去 非常 高 级 的 协议 ， 叫 做 CDMA 协议 (Code Division Multiple Access), 
中 文 译作 码 分 多 址 协议 ， 国 内 目前 用 的 3G 或 者 4G 都 是 CDMA 协议 族 里 的 通信 协议 。 

怎么 理解 这 种 协议 呢 ?” 先 想象 一 下 ,很 多 人 聚 在 一 起 说 话 时 有 什么 现象 ? 即 大 家 都 在 
用 3 000 ~ 4 000 Hz 的 频率 一 一 常人 耳 打 能 识别 的 语音 频率 来 进行 对 话 。 大 家 都 近 距 离 小 
声 说 话 ， 基 本 上 还 没 问题 。 这 属于 多 个 点 对 点 的 对 话 ， 其 他 人 之 间 对 话 的 声音 传 过 来 就 非 
常 小 了 ， 基 本 不 会 干扰 到 和 谈话 对 象 之 间 的 会 话 一 一 从 前 面 提 到 过 的 香农 公式 来 说 这 属于 
信 噪 比比 较 大 的 时 候 。 如 果 大 家 说 话 时 声音 都 比较 大 ， 那 就 显得 非常 嘲 杂 ， 如 果 噪 声 压 过 
了 正常 交谈 的 声音 再 想 要 跟 谈 话 对 象 说 清楚 就 需要 离 得 近 一 些 ， 声 音 大 一 些 ， 这 就 是 加 大 
信和 号 功率 ， 还 是 加 大 信 噪 比 的 方案 。 

CDMA 是 一 种 与 这 种 处 理 思路 不 同 的 方式 ， 它 相当 于 在 整个 房间 里 强迫 每 一 对 谈话 者 
都 用 一 种 与 其 他 谈话 的 人 不 一 样 的 语言 。 如 甲乙 两 个 人 用 英语 ， 丙 丁 两 个 人 用 中 文 ， 成 已 
两 个 人 用 韩国 语 ， 等 等 。 最 后 整个 房间 里 虽然 听 起 来 还 是 会 比较 吐 杂 ,但 是 每 个 对 话 者 经 
历 的 是 一 种 什么 现象 呢 ? 如 甲 会 在 乱 喻 喻 的 背景 噪音 里 ， 听 到 有 一 个 乙 在 讲 英语 , 乙 也 是 
同样 的 感觉 一 一 他 会 听 到 在 嗜 杂 的 噪声 里 有 一 个 甲 在 讲 英语 。 其 他 每 一 组 对 话 的 对 象 都 会 
有 类 似 的 感觉 ， 即 能 听 到 杂乱 的 背景 噪声 里 有 一 个 人 在 讲 自己 能 听 懂 的 语言 一 一 只 要 这 种 
噪声 不 要 大 到 完全 听 不 到 谈话 对 象 在 说 什么 即 可 。 每 对 人 物 对 话 的 过 程 却 是 听 到 了 很 多 的 
声音 ,但 是 根据 上 下 文 关系 是 能 够 从 众多 的 声音 中 滤 出 那些 和 自己 语言 一 致 的 声音 ， 甚 至 
在 语言 种 类 一 致 的 情况 下 能 够 滤 出 和 自己 对 话 内 容 一 致 的 声音 。 这 基本 就 是 CDMA 技术 
最 为 通俗 的 解释 了 ， 整 个 方案 就 是 基站 ， 不 同 的 手机 就 是 里 面 每 个 人 ， 唯 一 不 同 的 一 点 是 ， 
基站 本 身 会 说 N 种 语言 ， 它 每 次 和 一 台 手 机 开启 一 个 会 话 都 会 指定 让 这 次 会 话 使 用 某 种 语 
言 而 且 和 其 他 手机 不 同 ， 虽 然 频 段 和 时 间 上 不 做 区 分 但 是 手机 和 基站 的 通信 在 各 自 的 “ 语 
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言 ” 下 并 行 不 悖 。 

人 类 为 什么 会 具有 这 样 一 种 能 力 ， 其 实 是 根据 这 些 语音 各 自 具备 一 定 的 特性 和 上 下 文 
关系 ， 所 以 人 们 轻易 能 够 从 噪声 中 提取 到 能 理解 的 信息 ， 而 忽略 那些 认为 不 是 信息 的 内 容 。 

维特 比 算法 整体 的 思路 就 是 在 寻找 收 到 的 上 一 段 信息 和 它 后 面 跟随 的 下 一 段 信 息 的 转 
移 概 率 问题 一 一 在 这 有 段 信息 后 最 可 能 出 现 的 是 哪些 前 置 内 容 。 

再 来 看 一 个 和 生活 更 贴近 的 例子 一 一 打字 软件 猜测 输入 内 容 对 应 文字 ， 如 图 10-12 
所 示 。 
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图 10-12 打字 软件 猜测 输入 内 容 对 应 文字 


在 Windows 中 能 够 使 用 的 输入 法 有 很 多 种 ， 有 全 拼 ， 即 要 把 拼音 输入 完整 ， 有 双 拼 ， 
即 一 种 缩 拼 ， 用 一 个 字符 代表 若干 个 字符 ; 有 五 笔 字 型 ， 即 用 一 个 字符 代表 一 个 偏旁 ; 等 
等 ， 但 是 猜测 输入 文字 时 ， 原 理 差 不 多 。 以 全 拼 为 例 ， 在 使 用 输入 法 时 ， 输 入 的 是 英文 字 
母 。 在 这 个 应 用 中 ， 隐 藏 的 序列 是 真实 要 输入 的 中 文字 符 和 词汇 ， 显 示 的 部 分 是 输入 的 英 
文字 符 。 

在 输入 jn 时, 输入 法 软件 会 猜测 想 要 输入 “ 近 "”、“ 斤 ”"、“ 今 ”等 。 而 这 种 排序 不 是 里 
猜 的 ， 通 常 是 根据 统计 而 来 。 也 就 是 说 “ 近 ”"、“ 斤 ”"、“ 今 ”这 样 的 顺序 一 般 是 根据 使 用 人 
的 输入 习惯 形成 的 一 一 在 平时 打字 聊天 的 过 程 中 “ 近 ” 出 现在 词汇 或 句子 (如果 输入 法 知道 
这 个 是 句子 开始 ) 输入 开始 的 概率 大 于 “ 斤 "， 而 “ 斤 ” 大 于 “ 今 ”。 在 使 用 输入 法 时 也 能 
感觉 到 ， 一 个 字 如 果 被 输入 一 次 ,下 一 次 再 输入 的 时 候 排 名 可 能 就 比 原来 靠 前 很 多 ， 尤 其 
是 那些 比较 冷 僻 的 字 排 名 变化 尤其 明显 。 

但 是 又 输入 了 tian 时 就 不 一 样 了 。“ 今 天 ”作为 一 个 词汇 ， 比 其 他 任何 一 个 被 拼 作 
jintian 的 词汇 都 使 用 得 更 为 高 频 。 也 可 以 理解 为 ， 当 输入 tian 时， 由 jin (C) 到 tian CX) 
这 条 路 径 的 概率 是 最 高 的 ， 这 是 把 “今天 ”这 个 词汇 放 在 第 一 个 的 原因 。 

后 面 输入 了 几 个 其 他 的 完整 词汇 :“ 我 们 ”““ 应 该 ” “做 些 " “什么 "”， 输 入 法 也 会 继 
续 对 这 些 词汇 在 句子 中 的 路 径 概率 进行 计算 ， 每 次 输入 都 会 猜测 一 次 到 目前 的 输入 状态 为 
止 最 有 可 能 的 那 条 路 径 ， 那 么 看 到 的 这 个 第 一 顺 位 的 词汇 ， 准 确 说 是 一 个 句子 一 一 “今天 
我 们 应 该 做 些 什么 ”就 是 猜测 到 的 最 优 的 结果 ， 它 比 其 他 任何 一 种 路 径 产 生 的 概率 都 要 高 。 

上 述 内 容 是 一 个 在 没有 看 该 输入 的 源 代码 的 情况 下 做 的 一 个 猜测 ， 只 是 说 这 样 做 是 可 
以 的 ， 具 体操 作 起 来 还 是 会 比较 复杂 ， 还 有 很 多 其 他 的 因素 应 该 考虑 进去 。 如 这 个 马尔 可 
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夫 模 型 的 训练 (拼音 串 的 输入 与 最 终 产生 的 汉字 串 的 输出 ) 是 应 该 来 源 于 本 地 的 输入 者 的 习 
惯 呢 ， 还 是 应 该 来 源 于 更 加 有 代表 性 的 互联 网 呢 ， 还 是 两 者 结合 ， 如 果 结 合 又 是 怎么 一 种 
策略 来 调解 其 中 矛盾 的 部 分 呢 ? 这 些 都 是 值得 探讨 的 问题 。 

下 面 模 拟 输入 法 的 猜测 方法 给 出 一 个 算法 示例 ， 先 给 出 各 级 转移 和 矩阵， 如 表 10-4 一 表 
10-7 所 示 。 
表 10-4 jin 概率 矩阵 表 10-5 jin-tian 转移 矩阵 











简单 做 一 下 说 明 ， 输 出 一 个 完整 拼音 后 ， 用 户 就 会 按 空格 或 者 数字 把 输入 备 选 框 中 的 
汉字 输出 ， 当 单字 词 输出 时 就 会 由 统计 产生 “jin 输入 概率 矩阵 ”和 “ wo 概率 矩阵 ”这 样 
的 统计 结果 ， 这 个 计算 比较 简单 ， 计 算 次 数 即 可 。 下 次 再 度 输 入 单字 词 拼 音 就 会 根据 输入 
概率 矩阵 进行 排序 ， 概 率 大 的 单字 词 会 列 在 前 面 。 

而 当 用 户 输出 的 是 一 个 “ 双 字 词 ” 时 就 会 由 统计 产生 “jin-tian 转移 矩阵 ”和 “wo-men 
转移 矩阵 ”这 样 的 统计 结果 ， 同 样 是 用 计数 的 统计 方法 即 可 。 而 且 每 个 双 字 词 、 三 字 词 等 
的 输入 统计 都 用 这 种 方法 。 在 输入 双 字 词 汉 字 拼 音 时 会 根据 转移 概率 表 进 行 计算 。 多 个 词 
相连 就 是 多 个 转移 矩阵 的 概率 相 乘 计算 ， 从 而 得 到 概率 最 大 的 输入 可 能 项 。 

在 实际 应 用 的 过 程 中 ， 这 个 概率 矩阵 会 是 一 个 系数 矩阵， 在 磁盘 或 者 内 存 上 肯定 不 会 
像 这 4 个 表格 这 样 直接 列 成 一 个 方 阵 来 存储 的 。 而 且 转 移 概率 足够 小 ， 如 小 于 0.001 时 可 以 
认为 是 输入 统计 中 的 噪声 点 ， 不 进行 词汇 输入 推荐 ， 这 样 输入 备 选 框 的 前 面 也 只 会 出 现 高 
频 输入 词汇 ， 这 样 备 选 框 比较 简洁 。 

代码 如 下 : 


# coding-utf-8 
import numpy as np 
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jin 


第 10 章 


外 六 ', (JEn, A, «rg iKi] 


jin per = [0.3; 0.2. 0.1, 0.06, 003] 


jintian = [' K', 'JA, ' gr, tbt 13e 1] 
jintian per = [ 
[0.001, 0.001, 0.001, 0.001, 0.001], 
[0.001, 0.001, 0.001, 0.001, 0.001], 
[0.990, 0.001, 0.001, 0.001, 0.0024], 
[0.002, 0.001, 0.850, 0.001, 0.001], 
[0.001, 0.001, 0.001, 0.001, 0.0011] 
wo = [Ars o Xr, En dE, IB] 
wo per - [0.400, 0.150, 0.090, 0.050, 0.030] 
women = ['4]', "N", ' R', Nr, CA] 
women per - [ 
[0.970, 0.001, 0.003, 0.001, 0.001], 
[0.001, 0.001, 0.001, 0.001, 0.001], 
[0.001, 0.001, 0.001, 0.001, 0.001], 
[0.001, 0.001, 0.001, 0.001, 0.0021], 
[0.001, 0.001, 0.001, 0.001, 0.001]] 
本 = 5 
def found from oneword(oneword per): 
index - [] 
values = [] 
a - np.array(oneword per) 
for v in np.argsort (a) [::-11][:N]: 
index.append(v) 
values.append(oneword per[v]l) 
return index, values 
def found from twoword(oneword per, twoword per): 


last = 0 
for i in range(len(jin per)): 
current - np.multiply(oneword per[i], twoword per[il) 
LE ud == 0i 
last = current 
else: 
last - np.concatenate((last, current), axis-0) 


index - [] 

values = [] 

for v in np.argsort (last) [::-1] [:N] : 
index.append([v / 5, v % 5]) 
values.append (last [v] ) 
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return index, values 


predict (word): 
if word ss "J 
for i in found from oneword(jin per) [0]: 
print jinii] 
elif word -- 'jintian': 
for i in found from twoword(jin per, jintian per)[0]: 
print jin[i[O0]] + jintian[il1]] 
elif word -- 'wo': 
for i in found from oneword(wo per) [0]: 
print wo[i] 
elif word == 'women': 
for i in found from twoword(wo per, women per) [0]: 
print wo[i[0]] + women [i [1]] 
elif word == 'jintianwo': 
indexl, valuesl = found from oneword(wo per) 
index2, values2 - found from twoword(jin per, jintian per) 
last = np.multiply(valuesl, values1l) 
for i in np.argsort (last) [::-1] [:N] : 
print jin[index2[i] [0]], jintian[index2[i] [1]], wolil 
elif word == 'jintianwomen!: 
indexl, valuesl - found from twoword(jin per, jintian per) 
index2, values2 - found from twoword(wo per, women per) 
last = np.multiply(valuesl, values1) 
for i in np.argsort(last) [::-1] [:N] : 


print jin[indexi[il[0]], jintian[indexi[i] [1]], wo[index2[i] [01], 


women [index2 [i] [11] 


name su o5 _ main "i 





# 今天 


predict('wo') 


4 oit 
# 斤 
# 今 
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# 金 
# 尽 
predict('women!) 
8 我 们 
# RN 
# «I 
à RH 
# 我 拉 
predict('jintianwo') 
# 今天 我 
# 金田 窜 
# ERE 
# 近 填 握 
# 近 田 卧 
predict('jintianwomen') 
& 今天 我 们 
# 金田 我 问 
# 近 田 我 拉 
# ARH 
# 近 天 我 门 
根据 算法 ， 示 例 输入 会 在 输入 “jin”、“ jintian”、“ jintianwo”、“ jintianwomen” 时 分 
别 排序 输出 : 
"jin": 3E. fr. 4. $&. R 
"jintian"; 4 X. 4H 


"jintianwo": 今天 我 
"jintianwomen": 今天 我 们 


10.4.2 ”前 向 算法 

再 来 看 问题 2 所 涉及 的 问题 , “知道 贷 子 有 几 种 ( 隐 舍 状态 数量 )、 每 种 山子 是 什么 ( 转 
JR BL, I USDERUCT-DEIB BU AS SR (可见 状 态 链 )， 想 知道 掷 出 这 个 结果 的 概率 "， 解 决 这 个 
问题 的 算法 叫做 前 向 算法 (Forward Algorithm ) 。 

还 是 来 看 这 个 例子 : 怀疑 自己 的 六 面 散 子 被 赌场 动 过 手脚 了， 有 可 能 被 换 成 男 一 种 六 
HRT, xUBCEBCTI kA 1 的 概率 更 大 ， 是 12， 掷 出 来 是 2、3、4、5、56 的 概率 是 
1/10。 应 该 怎么 办 ?” 答案 很 简单 ， 算 一 算 正 常 的 3 个 货 子 掷 出 一 段 序列 的 概率 ， 再 算 一 算 不 
正常 的 六 面 山子 和 另外 两 个 正常 骨 子 撕 出 这 有 段 序列 的 概率 。 如 果 前 者 比 后 者 小 ， 就 要 小 心 
To Ain, DEBT BAS RUE 10-13 所 示 。 

要 算 用 正常 的 3 41 CT DHT ACE BUBES, HOS SU nT RETE OL SESEETT DT 
THE. PEE, füpHRBS IIIA REGI AESBUG RTII, YRiÉYLTERBRTBCT RE PDSE BURBESR , 
但 是 这 回 不 挑 最 大 值 了 ， 而 是 把 所 有 算出 来 的 概率 相 加 ， 得 到 的 总 概率 就 是 要 求 的 结果 。 
这 个 方法 依然 不 能 应 用 于 太 长 的 仍 子 序列 (马尔 可 夫 链 )。 这 里 应 用 一 个 和 前 一 个 问题 类 似 
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的 解法 ， 只 是 前 一 个 问题 关心 的 是 概率 最 大 值 ， 这 个 问题 关心 的 是 概率 之 和 。 首 先 ， 如 果 
HJg—UBE T, WK 10-14 所 示 。 

结果 为 1。 产生 这 个 结果 的 总 概率 可 以 按照 如 表 10-8 所 示 计 算 ， 总 概率 为 0.18 (表格 
中 取 的 都 是 约 等 值 )。 





图 10-13 BERE RAS 图 10-14 HRT 
X 10-8 概率 











ENHE, WARRT, UE 10-15 所 示 。 


E 10-15. WRT 
概率 如 表 10-9 所 示 。 


表 10-9 概率 








PI(DA)* 7*0 PIDO + 3*0+ PIDB * i *0=0 





PI(D4)* 工 * 工 + PIHD6)* 工 * 工 + picpg)*1 41 4 9.91 
3 6 3 6 36 













pip4)*1«l, ppejsl«l, PI(D8)*1*1 4 0,907 5 
3 8 3 8 3 8 





0.018 


AERE, MARRET 3 次 的 情况 ， 如 表 10-10 所 示 。 

同样 ， 如 果 有 更 长 的 括 仍 子 序 列 ， 也 能 进行 统计 和 计算 。 用 一 样 的 方法 进行 计算 ， 可 以 
算出 正常 的 六 面 贷 子 和 另外 两 个 正常 仍 子 掷 出 这 个 序列 的 概率 ， 然 后 比较 一 下 两 个 序列 概率 
的 大 小 就 能 知道 仍 子 是 否 被 人 置换 过 。 在 这 个 例子 里 ， 如 果 发 现 使 用 的 骨 子 掷 出 来 的 序列 的 
出 现 概率 比 计 算出 来 的 “标准 ”概率 低 很 多 或 者 高 很 多 ， 那 就 很 可 能 是 被 置换 过 的 。 
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10.5 支持 问 量 机 SVM 


支持 向 量 机 SVM 是 一 种 比较 抽象 的 算法 概念 ， 全 称 是 Support Vector Machine, € nu] 
以 用 来 做 模式 识别 、 分 类 或 者 回归 的 机 器 学 习 。 

前 面 介绍 过 机 器 学 习 是 为 了 解决 样本 和 具体 分 类 映射 的 问题 ， 构 造 一 个 算法 ， 把 已 知 
样本 的 特征 和 分 类 情况 做 一 个 逻辑 映射 关系 ， 这 样 磁 到 新 样本 时 就 能 用 这 个 算法 把 它 进行 
分 类 了 。 

初 高 中 数学 里 学 的 不 少数 学 概念 其 实 已 经 是 分 类 的 概念 了 ， 只 是 太 稀 松平 常 ， 从 学 术 
上 不 能 把 它们 归 为 机 器 学 习 的 算法 ， 因 为 这 简直 无 须 学 习 。 例 如 ， 大 于 零 的 实数 叫 正 数 ， 
小 于 零 的 实数 叫 负数 。 这 是 一 个 定义 ， 但 同时 也 是 一 个 算法 。 数 学 表达 式 如 下 : 





Positive x»0 
属性 = 


Negative x<0 


所 以 ， 如 果 有 一 个 实数 zx， 判断 属于 正 数 (Positive) 还 是 负数 (Negative)， 只 要 在 这 
个 算法 里 一 套 ， 立 刻 就 能 进行 分 类 ， 这 简直 是 太 棒 了 。 

这 个 过 程 其 实 不 是 一 个 机 器 学 习 过 程 ， 细 心 的 读者 应 该 能 注意 到 ， 这 里 似乎 看 不 到 有 
“学 习 ” 这 个 过 程 存 在 。 没 错 ， 这 个 方法 和 我 们 在 “机 器 学 习 ” 之 前 学 习 的 算法 书写 方式 几 
乎 是 一 样 的， 都 是 人 来 告诉 计算 机 判定 的 定义 如 何 ， 然 后 计算 机 根据 这 个 判定 的 定义 来 处 
理 每 一 个 待 判定 的 对 象 。 这 里 面 计算 机 确实 没有 这 个 学 习 的 过 程 。 

什么 情况 下 就 算 开 始 学 习 的 过 程 了 呢 ? -下面 把 上 述 例子 “进化 ”。 


10.5.1 年 龄 和 好 坏 

如 果 到 了 某 公 司 工 作 ， 领 导 交 代 任 务 :“ 来 ， 把 这 些 客户 给 我 分 分 类 。 看 看 什么 样 的 用 
户 质量 比较 高 ， 什 么 样 的 用 户 质量 比较 低 。 以 后 业务 部 门 去 拓展 就 能 提高 客户 发 展 的 效率 。 
客户 信息 列表 如 表 10-11 所 示 。 


表 10-11 客户 信息 


























在 这 个 列表 中 ， 只 能 看 到 “客户 年 龄 ”和 “客户 质量 ”两 个 列 ， 这 个 例子 已 经 是 比较 
极端 的 例子 了 ， 因 为 在 这 里 从 一 开始 就 认为 只 有 客户 年 龄 有 可 能 会 跟 客户 质量 有 关系 。 客 
户 质量 是 由 具体 的 业务 部 门 根 据 他 们 的 评价 标准 来 做 的 衡量 ， 衔 量 标准 是 不 是 合理 暂且 不 
管 一 一 因为 不 管 他 们 内 部 用 什么 衡量 标准 ， 肯 定 是 有 他 们 自己 的 评价 体系 去 做 ， 总 之 客户 
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质量 是 能 够 这 样 描述 就 行 了 。 再 来 看 “客户 年 龄 ”这 一 列 ， 这 个 列表 在 真实 情况 下 有 可 能 
会 非常 长 ， 如 果 有 10 000 个 客户 ， 那 就 可 能 有 10 000 fT, er 10 行 来 演示 ， 
10 000 行 也 是 同样 的 原理 。 那 在 这 个 有 限 信息 的 模型 里 只 能 通过 年 龄 来 对 客户 质量 好 不 好 
进行 评价 了 ， 如 图 10-16 所 示 。 


图 10-16 客户 信息 的 数 轴 表 示 


从 图 10-16 中 可 以 看 出 ，30 以 上 的 都 好 ，25 以 下 的 都 不 好 。 也 就 是 说 可 以 考虑 在 “ 客 
户 年 龄 ”字段 的 30 和 25 中间 切 一 刀 ， 一 边 是 好 一 边 是 不 好 ， 那 么 切 在 哪儿 好 呢 ? 直观 上 
看 ， 似 乎 应 该 是 切 在 (30+25 ) /2 的 位 置 ， 也 就 是 27.5， 这 基本 上 也 是 从 目前 的 情况 能 够 得 
到 的 最 为 合理 的 方案 。 例 如 ,来 了 一 个 27 岁 的 新 客户 ， 那 么 他 更 有 可 能 是 “好 ”的 客户 还 
是 “不 好 ”的 客户 呢 ? 因为 看 起 来 离 “ 不 好 ”客户 这 边 更 近 ， 所 以 算 “ 不 好 ”的 客户 应 该 
更 合理 ， 如 图 10-17 所 示 。 





— o 
18 22 23 25 27:5 30 3l 32 33 34 
图 10-17 以 27.5 为 分 界 


如 果 这 种 例子 怎么 办 ? 例如， 客户 信息 列表 如 表 10-12 Jr. 
表 10-12 

















18 22 23 25 27.5 30 3l 32 33 34 
图 10-18 客户 信息 的 数 轴 表 示 
这 个 就 比较 麻烦 了 ， 因 为 发 现 没 有 办 法 做 到 一 刀 切 ， 确 实 做 不 到 ， 怎 么 切 都 至 少 有 一 
方 “成 分 不 纯 ”。 那 么 现在 有 以 下 两 种 选择 。 
C1) 把 这 两 类 全 部 标 出 来 : 
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Good x > 30,x #31 


属性 = Good X=23 
— |NotGood x < 25,x # 23 
NotGood x-31 


xt X d—^- 4: BER — FE ng pd, VENE, BERERE. xi f, KAREE 
在 10000 个 甚至 更 多 的 客户 对 象 里 去 做 这 个 事情 ， 最 后 函数 描述 会 不 会 一 张 A4 纸 都 印 不 下 
可 说 不 准 了 ， 毕 竟 这 个 关系 是 从 得 到 的 数据 里 归纳 而 来 的 ， 实 际 有 多 复杂 只 有 看 实际 情况 
了 。 所 以 这 种 标记 方法 容易 产生 的 问题 就 是 过 拟 。 过 拟 在 第 8 章 已 经 接触 过 了 ， 即 为 了 通 
近 “ 事 实 ” 而 让 描述 变 得 过 于 复杂 的 情况 。 

(2) 一 刀 切 。 反 正 只 要 一 刀 切 会 非常 简洁 ， 如 果 这 一 刀 切 下 去 虽然 两 边 的 类 都 不 纯 或 
者 一 边 的 类 不 纯 ， 但 是 只 要 不 纯 的 程度 在 能 容忍 的 范围 内 就 可 以 。 

属性 - | Good x29275 


NotGood x< 27.5 
这 次 还 是 试 着 从 27.5 切 ， 大 于 等 于 27.5 的 就 算是 “好 ”， 小 于 27.5 的 算是 “不 好 ”。 
那么 这 个 分 类 中 “好 ”类 的 “不 纯度 ” *-. 约 为 16.7% ;“ 不 好 ”类 的 “不 纯度 ” i. 


即 235%。 这 个 比率 反正 在 我 看 来 还 是 挺 高 的 ， 一 般 来 说 ,“ 不 纯度 ”肯定 是 越 低 越 好 ， 在 这 
个 场景 里 不 确定 16.7% 的 不 纯度 是 不 是 能 够 满足 领导 的 需要 。 如 果 说 原来 在 不 做 这 种 数据 
分 析 的 情况 下 ， 发 展 10 个 客户 ， 有 6 个 是 “好 ”客户 ， 4 个 是 “不 好 ”的 客户 ; 现在 改进 
后 虽然 有 一 定 的 误 判 率 一 一 由 于 分 类 不 纯 的 问题 ， 但 是 直接 过 滤 掉 一 些 对 象 ， 发 展 10 个 客 
户 有 8.3 个 是 “好 ”的 客户 ， 还 有 大 概 1.7 个 是 “不 好 ”的 客户 。 从 数值 上 看 ， 方 案 策略 的 
提升 应 该 是 有 改进 的 。 

总 结 一 下 ， 上 述 例子 里 有 以 下 几 个 关键 性 的 信息 。 

关键 点 1 : 切 下 去 点 在 SVM 算法 体系 里 叫 “ 超 平面 ” 。 这 个 “ 超 平面 ”是 一 个 抽象 
的 面 概念 ， 在 一 维 空间 里 就 是 一 个 点 ， 用 x+4=0 来 表示 ; 二 维 空间 里 就 是 一 条 线 ， 用 
Ax+By+C=0 的 直线 来 表示 ; 三 维 空间 里 就 是 一 个 面 ， 用 4x+By+Cz+D=0 的 平面 来 表示 ; 四 
维 空间 就 想象 这 个 面 的 存在 吧 ， 但 是 可 以 推断 出 应 该 是 用 4x+By+Czt+Da +E=0 来 表示 ， 以 
此 类 推 …… 上 述 4 个 方程 都 可 以 变形 为 
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的 这 种 形式 。 

在 上 述 例子 中 ， 相 当 于 是 在 一 个 一 维 空间 里 在 x = 27.5 的 位 置 画 了 一 个 “ 超 平面 ”( 零 
维 的 点 )。 即 x - 27.5=0 这 个 方程 就 是 超 平面 。 即 x- 27.5 > 0 的 都 是 分 类 为 “好 ”的 样本 ， 
x-27.5 < 0 的 则 都 不 是 分 类 为 “好 ”的 样本 。 

关键 点 2 : 过 拟 问题 ， 一 般 来 说 ， 设 计 分 类 器 都 是 要 尽量 避免 过 拟 的 。 过 拟 会 给 归纳 
过 程 带 来 很 大 的 麻烦 ， 而 且 在 应 用 的 过 程 中 也 非常 不 方便 ， 只 要 精确 度 达 到 标准 就 足够 了 。 
什么 是 精确 度 ， 就 是 要 说 的 最 后 一 点 。 

关键 点 3 : 不 纯度 问题 。 不 纯度 和 精确 度 是 一 对 了 矛盾， 精确 度 越 高 那么 不 纯度 就 越 低 ， 
反之 ， 不 纯度 越 高 精确 度 就 越 低 。 分 类 器 的 研究 和 调整 的 过 程 是 一 个 精度 和 成 本 平衡 的 过 
程 ， 所 以 并 不 是 不 纯度 越 低 越 好 ， 而 是 在 实际 生产 中 操作 成 本 一 样 的 情况 下 ， 不 纯度 越 低 
越 好 。 


10.5.2 “下 思 ” 不 容易 

在 上 一 个 例子 里 发 现 样 本 在 维度 单纯 (只 有 一 个 年 龄 维度 )， 而且“ 分 界线 ”比较 清晰 
的 情况 下 ， 几 乎 没有 用 到 任何 超过 高 中 及 以 上 学 历 所 学 的 知识 内 容 就 能 轻易 解决 。 

如 果 x 的 分 布 复杂 一 些 ， 情 况 会 怎么 样 ? 

下 面 举 一 个 三 角 函 数 作为 分 界线 的 例子 ， 如 图 10-19 所 示 。 








图 10-19 sinx 的 图 形 


图 10-19 中 有 两 类 样本 ， 一 类 是 用 圆圈 标识 出 来 的 A 类 别 ， 一 类 是 用 三 角 标 识 出 来 的 
B 类 别 。 如 果 碰 巧遇 到 这 种 情况 ， 在 一 个 (x,y) 二 维 向 量 组 成 的 空间 上 有 大 量 的 样本 (这 比 
在 只 有 一 个 空间 维度 年 龄 x 要 复杂 一 些 ), 但 是 恰好 两 类 样本 能 用 一 个 函数 巧妙 地 分 开 ， 能 
保证 简洁 (不 过 拟 ) 和 精确 (不 纯度 极 低 )。 如 果 y= sin(x) 这 样 的 曲线 能 够 恰好 把 它们 分 开 ， 
将 是 一 条 非常 简洁 的 分 割 线 (虽然 不 是 直线 )。 

但 是 ， 机 器 学 习 的 方法 基础 都 是 统计 和 归纳 ， 从 大 量 样本 空间 来 的 样本 可 没有 那么 简 
单 ， 如 果 找 不 到 一 个 像 y= sin(x) 这 么 简洁 的 曲线 来 分 割 怎 么 办 ? 是 不 是 只 能 面临 过 拟 的 情 
Di? 如果 下 一 个 是 y= cos(x), 或 者 y=sin(x)+log(x) 怎么 办 ， 会 每 次 那么 幸运 都 能 轻易 找到 
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一 条 简洁 的 曲线 来 解决 问题 吗 ? 

人 们 研究 机 器 学 习 的 目的 是 使 用 具备 广 谱 性 的 算法 思路 来 解决 多 样 的 事情 ， 如 果 解 决 每 
一 个 问题 都 是 不 同 的 解法 ， 其 至 思路 杀 异 ， 那 这 种 Case by Case 的 方式 完全 不 能 被 称 为 一 类 
解决 方法 。 而 现在 讨论 的 支持 向 量 机 SVM 就 是 要 解决 这 类 问题 ， 它 也 号 称 是 万 能 分 类 器 。 


10.5.8 ”距离 有 多 远 

在 一 个 平面 直角 坐标 系 中 ， 有 一 些 样本 点 作为 训练 点 ， 一 些 被 标记 为 类 别 X， 一 些 标 
记 为 非 类 别 X。 也 就 是 样本 训练 中 ， 一 些 样本 明确 标 出 是 这 个 分 类 ， 而 另 一 些 样本 标 出 不 
是 这 个 分 类 。 

最 朴素 的 想法 是 ， 如 果 能 找到 一 条 直线 Ax-By-C-0 能 够 恰好 把 它们 区 分 成 两 个 部 分 就 
最 好 了 。 那 么 这 条 线 应 该 怎么 来 找 呢 ? 

如 果真 的 像 图 10-19 所 画 这 样 ， 那 么 确实 会 有 一 条 直线 4x+By+C=0， 问 题 是 就 像 用 逐 
差 法 求解 重力 加 速度 g 的 过 程 一 样 ， 这 个 4x+By+C=0 有 很 多 种 画 法 。 在 求解 重力 加 速度 
e 的 那 一 节 讨 论 过 ， 有 一 种 叫做 最 小 二 乘法 的 办 法 可 以 求 出 一 个 使 得 回归 后 误差 最 小 的 解 。 
那么 在 求解 这 个 4x+B8y+C=0 的 过 程 中 也 是 为 了 求解 出 适当 的 4 和 B， 让 这 两 个 组 分 开 最 为 
恰当 。 人 恰当 的 标准 是 让 类 别 X 中 与 该 直线 最 近 的 样本 点 的 距离 和 非 类 别 X 中 的 样本 点 与 该 
直线 的 距离 最 大 。 

这 和 回归 中 和 希望 拟 合 出 来 的 曲线 和 得 到 的 样本 尽 可 能 贴近 这 一 观点 接近 ， 这 里 画 出 的 
这 条 直线 是 希望 让 被 分 开 的 两 个 类 别 (类 别 X 和 非 类 别 X) 尽 可 能 远 ， 也 就 是 相差 越 远 分 
得 越 开 。 相 反 ， 如 果 划 了 一 条 线 几 乎 要 同时 经 过 一 个 类 别 X 的 样本 点 和 一 个 非 类 别 X 的 样 
本 点 ， 那 出 现 一 个 新 的 和 XX 很 “ 像 ” 的 样本 点 则 很 容易 被 画 到 非 类 别 X 中 去 ,这 和 期 望 的 
形态 是 不 一 样 的 。 

在 平面 直角 坐标 系 中 ， 如 果 有 一 条 直线 ， 方 程 是 4x+By+C=0， 那 么 点 (xo, yo) 到 该 直线 
的 距离 如 下 : 
_| 4x +By,+C| 
j V£ +B’ 

如 果 数 轴 上 也 需要 用 类 似 :“x - 27.5 > 0 的 都 是 分 类 为 “好 ”的 样本 , x 275 <0 
的 则 都 不 是 分 类 为 “好 ”的 样本 。” 这 种 方式 来 做 分 制 ， 有 了 4x+By+C=0 这 样 一 个 方程 等 
于 有 了 一 个 工具 ， 可 以 发 现 ， 所 及 类 别 中 的 样本 点 都 满足 4x+By+C > 0， 而 反之 所 有 非 
X 类 别 中 的 样本 点 都 满足 4x+By+C — 0， 当 然 这 个 结果 也 是 最 开始 构造 4x+By+C=0 这 条 线 
的 目的 。 

推广 一 下 ,三维 空间 上 的 超 平面 划分 后 两 个 分 类 (一 个 是 目标 分 类 ， 一 个 不 是 目标 分 
X) 表示 就 是 一 个 满足 Ax-By-Cz-D > 0 另 一 个 满足 Ax+By+Cz+D < 0。 

四 维 空间 上 则 是 Ax--By--Cz-Da +E > 0 I Ax+By+Cz+D a +E < 0, 

其 实 样子 看 上 去 相当 类 似 ， 都 是 各 维度 坐标 点 前 面 乘 以 一 个 系数 之 后 再 加 一 个 常数 。 
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可 以 把 这 个 超 平面 的 公式 简写 成 
g(v) = wv+b 
v 是 样本 向 量 ,b 是 常数 。 
在 二 维 空间 里 , v 就 是 (x, y)， 在 三 维 空间 里 v 就 是 (x, y, z)， 其 余 情 况 以 此 类 推 ; m w 
也 是 一 个 向 量 ， 在 二 维 空间 里 w 就 是 (4, 8)， 在 四 维 空间 里 w 就 是 (4, B, C)， 其 余 情况 以 
此 类 推 。 而 wt 在 二 维 空间 里 就 是 4x+By， 在 三 维 空间 里 就 是 4x+By+Cz。 如 果 看 到 


g(x)=w"x+b 
或 者 
g(x)=wx+b 
或 者 
g(x)2w - x-b 


这 几 种 形式 意思 是 一 样 的 ， 其 中 的 < 都 不 是 一 个 实数 值 而 是 在 不 同 维度 空间 下 的 向 量 。 


10.5.4 AN 维度 空间 中 的 距离 
在 g(v)»wv-b 这 种 定义 方式 中 , 是 一 个 1xz 的 矩阵 ,是 一 个 zx1l 的 矩阵 ，wv 就 
是 两 个 矩阵 做 了 一 个 内 积 ， 也 就 是 Ys ,下 是 维度 的 数量 ，wi 就 是 每 个 维度 变量 前 面 的 
系数 ，v; 就 是 每 个 维度 变量 。 
在 二 维 空间 内 ， 一 个 点 Qo, yo) 到 一 条 直线 4x+By+C=0 的 距离 如 下 : 
| Ax, + By, 4 C | 
V£ +B? 
在 三 维 空间 内 ， 一 个 点 (xo, Yo zo) 到 一 个 平面 4x+By+Cz+D=0 的 距离 如 下 : 
| Ax, + By, 4 Cz, 4 D| 
NÆ EP aec 
在 一 维 空间 内 ， 一 个 点 (xo0) 到 一 个 点 4x+B=0 的 距离 如 下 : 


d= 


d= 





Ix «2| 
A 
但 同时 
7_L4a+8 引 
V 
规律 性 已 经 非常 明显 了 。 





在 有 些 书 上 会 介绍 一 个 叫做 范 数 的 概念 ， 上 述 V4? 、VA42+B? Jp ec 等 分 别 
就 是 一 维 空间 、 二 维 空间 、 三 维 空间 中 的 范 数 ， 写 作 ||wll。 在 不 同 的 维度 下 ， 这 个 范 数 ||wl| 
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的 具体 值 是 不 一 样 的 ， 是 超 平面 方程 的 各 维度 系数 的 平方 和 再 开 方 ， 是 一 个 和 超 平面 描述 
方程 系数 相关 的 定 值 。 
这 样 一 来 ,距离 公 式 就 可 以 简写 成 
1 
d= 8l 
维度 确定 时 这 个 公式 中 所 有 的 值 都 是 确定 的 。 要 判断 一 个 点 到 这 个 平面 的 距离 ， 只 要 
把 空间 坐标 代入 v 即 可 。 


10.5.5” 超 平面 怎么 画 

上 述 例子 实际 上 是 在 空间 里 先 画 一 个 g(v) 的 平面 ， 然 后 代 人 所 有 的 样本 点 ， 每 个 点 到 
这 个 超 平面 的 距离 都 能 求 出 来 ， 但 是 这 个 平面 并 不 是 超 平面 。 这 里 其 实 有 点 本 末 倒 置 ， 因 
为 超 平面 的 目的 是 把 样本 点 分 成 两 类 ， 一 类 “是 "， 一 类 “不 是 ”。 那 么 这 个 平面 的 产生 是 
要 有 约束 条 件 的 ， 至 少 是 要 受到 样本 的 影响 和 制约 的 ， 而 在 g(v)cwvtb 这 个 公式 展开 的 表 
达 中 看 到 这 样 的 约束 了 吗 ? 完全 没有 。 

直观 的 感觉 是 这 样 : 希望 的 是 找到 一 个 平面 作为 超 平面 ， 它 恰好 在 两 个 类 中 间 分 开 ， 
以 它 为 基准 画 两 个 与 它 平行 的 平面 ， 让 这 两 个 平面 分 别 向 两 个 方向 平行 移动 ， 即 一 个 向 类 
别 X 聚集 的 方向 移动 ， 一 个 向 非 类 别 X 聚 集 的 方向 移动 。 当 这 两 个 平面 同时 (等 距离 ) 分 
别 触 碰 到 类 别 x 和 非 类 别 X 的 点 时 停止 下 来 ， 记 录 这 个 平面 的 w 和 4b， 记 录 此 时 的 移动 距 
离 5。 这 样 的 平面 也 许 不 止 一 个 ， 但 是 会 找到 一 个 能 让 5 尽 可 能 大 的 值 ， 这 个 能 产生 最 大 ô 
值 方案 的 w IL b 所 构成 的 g(v)=wv+b 就 是 要 找 的 超 平面 。 

直观 感觉 就 是 我 们 画 了 一 个 平面 把 一 类 “是 ”、 一 类 “不 是 ”这 两 类 样本 分 隔 开 ， 并 且 
让 它们 到 超 平面 的 距离 都 尽 可 能 大 ， 这 就 是 原则 。 

这 个 平面 是 完全 有 可 能 通过 程序 找 出 来 的 。 


10.5.6 ”分 不 开 怎 么 办 

由 于 得 到 的 众多 的 v, y) 样本 分 类 是 不 确定 的 一 一 v 为 多 维 空间 上 的 样本 ，?y 为 分 类 只 
有 0 和 1 两 种 状态 。 所 以 确实 没有 办 法 保证 在 当前 的 空间 
上 一 定 能 有 一 个 超 平面 把 它们 清晰 地 隔 开 ， 或 者 说 不 管 怎 
么 画 ， 这 个 超 平面 都 会 产生 让 人 不 能 忍受 的 误 判 率 ， 如 图 
10-20 所 示 。 

图 10-20 所 示 为 由 白 点 和 黑 点 表示 的 两 种 分 类 ， 不管 怎 
么 画 这 个 超 平面 都 会 有 非常 大 的 误 判 率 ， 这 种 情况 也 叫做 线 
性 不 可 分 。 在 3 个 维度 以 下 ， 用 肉眼 观察 有 限 的 几 个 样本 还 
是 能 够 一 目 了 然 地 做 判断 的 ， 可 以 判断 是 不 是 线性 可 分 ， 如 
果 维 度 超过 3 个 或 者 样本 数量 太 多 就 不 好 观察 了 ， 这 时 要 使 图 10-20 ”两 种 分 类 
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用 计算 机 进行 计算 。 可 以 转化 一 种 思路 来 解决 这 个 问题 了 ， 即 升 维 一 一 这 才 是 SVM 算法 最 
为 吸引 人 的 部 分 

先 来 看 一 个 一 维 数据 的 例子 ， 来 说 明 升 维 的 概念 。 

假设 在 数 轴 上 给 出 一 些 数据 ， 其 中 [-2,2] 区 间 内 的 被 标记 成 了 分 类 1， 其 余 的 都 是 分 
类 0， 能 够 给 出 一 个 分 段 函数 吗 ? 似乎 不 能 。 怎 么 去 定义 这 个 切 开 的 点 都 会 产生 大 量 的 误 分 
类 。 但 是 换 一 个 办 法 可 能 就 能 顺利 地 解决 。 例 如 ， 在 这 个 例子 里 可 以 构造 一 下 ， 在 [-2,2] 
这 个 区 间 里 让 一 个 函数 大 于 0， 而 在 其 他 部 分 小 于 0。 例如， 把 分 类 函数 写成 以 下 形式 : 


1 -池上 4 二 0 
ra -x +4 <0 
或 者 可 以 认为 
i I y0 
rol Jas 
H 
y=—x +4 
而 
z=fy) 


y= -+4 图 形 如 图 10-21 所 示 ， 这 实际 上 是 y= -t 这 个 函数 在 y= 0 (x 轴 ) 这 条 直线 
上 的 投影 。 





图 10-21 y= 一 x+4 的 图 形 


同样 ， 在 二 维 空间 中 也 有 类 似 的 方式 ， 例 如， 如 果 样 本 向 量 v 距离 原点 (0,0) 的 距离 为 
1 以 内 分 类 被 标记 为 0， 其 余 都 是 1。 同 样 是 线性 不 可 分 , 但 是 可 以 构造 一 个 这 样 的 函数 : 
1 xy! zl 
fen difai 
或 者 可 以 这 么 认为 : 
1 221 


sa-l er 
a —f(z) 
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而 


z= 


x+y -1 的 图 形 如 图 10-22 所 示 。 





起 始 值 ; 结束 值 : 
x 一 10.0000 10.0000 
Y —10.0000 10.0000 


Z —64.1513 188.482 
图 10-22. x^«y^-1 的 图 形 


同样 用 非常 简洁 的 方式 解决 了 这 个 分 类 问题 。 不 过 可 能 有 的 朋友 要 说 了 ， 这 个 也 太 凑 
巧 了 吧 ， 我们 不 可 能 每 次 都 这 么 幸运 找到 这 种 函数 通过 观察 就 很 快 构 造 出 分 类 函数 ( 超 平面 
方程 )。 没 错 ， 我 们 平时 生产 生活 中 遇 到 的 例子 基本 都 是 线性 不 可 分 的 ，SVM 就 是 要 解决 
这 个 问题 。 

可 以 看 到 ， 在 一 维 空间 上 解决 线性 不 可 分 问题 是 把 函数 映射 到 二 维 空 间 ， 使 得 一 维 空 
间 上 的 分 类 边界 是 二 维 空 间 上 的 分 类 函数 在 一 维 空间 上 的 投影 ; 而 在 二 维 空间 上 解决 线性 
不 可 分 问题 是 把 函数 映射 到 三 维 空间 ， 使 得 二 维 空间 上 的 分 类 边界 是 三 维 空间 上 的 分 类 函 
数 在 二 维 空 间 上 的 投影 。 那 么 所 有 的 n 维 空间 上 的 线性 不 可 分 的 问题 都 可 以 考虑 映射 到 n+1l 
维 上 去 构造 分 类 函数 ， 使 得 它 在 n 维 空间 上 的 投影 能 够 将 两 个 类 别 分 开 。 

这 个 构造 过 程 SVM 是 有 通用 的 方法 可 以 解决 的 ， 就 是 使 用 核 函 数 ( Kernel) 进行 构造 。 
而 且 ， 有 几 个 常用 的 核 函 数 是 可 以 拿 来 直接 使 用 的 ， 如 线性 核 函数 、 多 项 式 核 函 数 、 径 向 
基 核 函数 (RBF 核 函 数 )、 高 斯 核 函 数 等 ， 能 够 查 到 的 核 函 数 有 二 三 十 种 之 多 。 

核 函 数 的 目的 很 单纯 ， 即 只 要 在 当前 维度 空间 的 样本 是 线性 不 可 分 的 ， 就 一 律 映 射 到 
更 高 的 维度 上 去 ， 在 更 高 的 维度 上 找到 超 平面 ， 得 到 超 平面 方程 。 而 在 更 高 维度 上 的 超 平 
面 方程 实际 并 没有 增加 更 多 的 维度 变量 ， 更 高 的 这 个 维度 只 是 像 在 解 几 何 题 里 使 用 的 辅助 
线 而 已 ， 最 后 得 到 的 方程 不 会 增加 其 他 维度 。 例 如 ， 研 究 二 维 空间 上 的 向 量 分 类 问题 ， 那 
么 经 过 核 函数 映射 最 后 得 到 的 超 平面 变 成 了 二 维 空间 上 的 曲线 (但 同时 也 是 三 维 空间 上 的 
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一 次 方程 ) ; 研究 三 维 空间 上 的 向 量 分 类 问题 ， 那 么 经 过 核 函数 映射 ， 最 后 得 到 的 超 平面 变 
成 了 三 维 空间 上 的 曲面 (但 同时 也 是 四 维 空间 上 的 一 次 方程 )。 函 数 表示 只 是 一 个 变量 代 换 
XA. 


10.5.7 示例 


为 了 方便 说 明 ， 这 里 还 是 用 熟悉 的 例子 给 出 一 个 分 类 用 法 的 示例 ， 客 户 信息 列表 如 表 
10-13 所 示 。 


表 10-13 ”客户 信息 














这 个 例子 很 极端 了 ， 因 为 客户 年 龄 和 客户 质量 之 间 已 经 是 没 办 法 做 线性 分 割 了 。 这 时 
可 以 用 SVM 来 做 分 类 。 

在 Python 的 Scikit-learn 库 中 ， 用 到 的 是 一 个 叫做 SVC 的 类 ，SVC 是 Support Vector 
Classification 的 缩写 ， 即 支持 向 量 分 类 机 。SVC 所 支持 的 核 孙 数 包 括 linear (线性 核 函 数 )、 
poly (多 项 式 核 函 数 )、rbf ( 径 向 基 核 函数 )、sigmoid (神经 元 激活 核 函数 )、precomputed (Á 
定义 核 函数 )， 默 认 使 用 rbf EZ PRÉC 

在 这 个 例子 中 ， 将 使 用 rbf 核 函数 ， 这 也 是 最 适合 做 非 线 性 关系 分 类 标准 的 首选 核 函 
数 。 如 果 这 几 种 核 函 数 实 在 不 知道 该 用 哪个 ， 那 就 在 实际 场景 中 多 做 对 比 测试 ， 看 看 哪 一 
种 的 正确 率 更 高 ， 切 莫 纠 结 于 学 术 层 面 的 推导 困难 而 不 敢 实 践 。 代 码 如 下 : 


from sklearn import svm 


LES 

x= [[34], [33], [321], [31], [301], [30], [251], [231], [22], [181] 
# 质量 

y 9 [i, 0; i; 0, d, i, 0, i, 0, 1] 


# 现在 把 训练 数据 和 对 应 的 分 类 放 入 分 类 器 中 进行 训练 
# 这 里 使 用 rbf 
clf = svm.SVC(kernel-'rbf').fit(X, y) 


# 预测 年 龄 30 的 人 的 质量 
p = [[30]] 
print clf.predict (p) 
# 结果 是 [1] 
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10.5.8 小结 
SVM 解决 问题 的 方法 描述 起 来 大 概 有 以 下 儿 步 。 
C1) 把 所 有 的 样本 和 其 对 应 的 分 类 标记 交 给 算法 进行 训练 。 
(2) 如 果 发 现 线性 可 分 ， 那 就 直接 找 出 超 平面 。 
(3) 如 果 发 现 线性 不 可 分 ， 那 就 映射 到 n+ 维 空间 ， 找 出 超 平面 。 
(4) 最 后 得 到 超 平面 的 表达 式 ， 也 就 是 分 类 函数 。 
过 程 比较 简单 ， 只 是 实现 起 来 的 算法 确实 比较 复杂 。 


10.6 ”遗传 算法 


在 本 章 的 最 后 介绍 一 下 遗传 算法 (Genetic Algorithm) 。 

与 其 说 遗传 算法 是 一 个 算法 ， 不 如 说 是 一 种 处 理 问题 的 思想 方式 更 为 恰当 ， 因 为 遗传 
算法 整个 体系 都 是 在 说 对 于 一 种 问题 处 理 的 思路 和 原则 ， 而 不 是 一 个 具体 的 代码 编写 过 程 。 

遗传 算法 是 一 类 借鉴 生物 界 的 进化 规律 〈 适 者 生存 ， 优 胜 劣 汰 遗传 机 制 ) 演化 而 来 的 随 
机 化 搜索 方法 。 它 是 由 美国 的 J.Holland 教授 于 1975 年 首先 提出 的 ， 但 是 它 借鉴 的 是 进化 
论 的 理论 依据 。 在 这 个 体系 里 ， 思 维 方式 远 比 编写 代码 重要 ， 所 以 先 介绍 一 下 著名 的 英国 
生物 学 家 查尔斯 罗伯特 ' 达尔文 一 一 进化 论 的 莫 基 人 。 

进化 论 不 是 一 本 书 ， 而 是 一 个 有 关 物 种 发 源 与 发 展 的 逻辑 体系 。 达 尔 文 在 1859 年 出 版 
了 《物种 起 源 》 由 此 开创 的 “ 物 竞 天 择 ， 适 者 生存 ”的 进化 论 体系 被 科学 界 公 认为 19 世 
纪 自 然 科 学 的 三 大 发 现 之 一 ( 男 外 两 个 是 细胞 学 说 和 能 量 守恒 与 转化 定律 )。 达 尔 文 于 1882 
年 4 月 病逝 ， 为 了 表示 对 这 位 科学 家 的 崇敬 ， 大 家 把 他 安 芋 在 牛顿 幕 的 旁边 ， 位 于 英国 伦 
敦 的 威 斯 敏 斯 特大 教堂 (也 叫 西 敏 寺 )。 








10.6.1 ”进化 过 程 

在 物种 进化 中 的 例子 中 ， 最 开始 地 球 上 只 有 海洋 没有 陆地 ， 从 单 细胞 动物 到 鱼 不 知道 
进化 了 多 少 代 。 这 里 以 从 陆地 出 现 以 后 ， 第 一 批 从 海里 想 上 岸 去 的 鱼 。 

估计 是 一 开始 有 一 群 鱼 ， 它 们 由 于 种 种 原因 跟 其 他 的 鱼 有 了 差别 ， 如 胆 儿 比 较 大 ， 有 
一 个 能 直接 呼吸 空气 的 鲁 能 在 空气 里 还 能 存 话 ， 有 格外 强壮 的 鱼 一 一 能 跑 得 快 一 些 。 
再 后 来 这 些 鱼 里 就 有 技能 更 强 的 ， 一 些 在 陆 上 格外 倚重 的 器 官 如 果 变 异 强大 了 就 会 继续 支 
持 它 们 在 陆 上 生活 ， 如 粗壮 的 鳍 、 空 气 摄 和 能力 更 强 的 肺 、 更 好 的 眼神 等 。 适 应 的 种 群 才 
会 在 相应 的 环境 里 生存 下 来 。 

根据 进化 论 的 观点 “ 物 竞 天 择 ， 适 者 生存 ”， 生 物 自己 是 会 进行 一 代 一 代 变 化 的 。 这 个 
变化 本 来 是 没有 什么 方向 的 ， 生 物 自己 也 控制 不 了 。 变 化 由 什么 而 来 ? 第 一 ， 父 母 的 基因 
进行 交换 重组 ;第 二 ， 基 因 突 变 。 
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一 代 一 代 在 整个 种 群 的 不 同 个 体 里 有 无 数 次 重组 的 机 会 ， 也 有 一 定 的 基因 突变 的 机 会 ， 
导致 了 若干 代 以 后 ， 同 一 个 种 群 之 间 的 样 态 可 能 会 非常 不 一 样 。 例 如 ， 人 有 23 对 染色 体 ， 
每 一 代 的 重组 和 突变 使 得 人 的 多 样 性 特点 非常 明显 。 现 在 人 的 长 相 彼此 有 很 大 差别 ， 以 及 
体态 、 性 格 、 思 维 方式 、 疾 病 抵御 …… 这 些 方面 也 都 是 千差万别 。 

尤其 是 人 类 历史 上 经 历 过 若干 次 大 的 瘟疫 一 一 14 世纪 欧洲 的 黑 死 病 造 成 全 世界 超过 
7 000 万 人 死亡 ; 17 世纪 在 欧洲 肆虐 的 天 花 病 毒 也 杀 死 超过 4 000 万 的 欧洲 人 。14 ZG T 
黑 死 病 (是 一 种 鼠疫 杆菌 ) 基本 就 是 没 救 ， 防 治 天 花 的 牛痘 疫苗 也 是 到 了 18 世纪 才 研 发 出 来 ， 
能 够 存活 下 来 的 人 群 其 实 也 并 没有 接受 像样 治疗 ， 科 学 家 分 析 基 本 只 能 解释 为 基因 层面 对 抗 
的 胜利 一 一 这 些 存 活 的 人 的 基因 比 那 些 患 病死 去 的 人 有 着 对 抗 这 种 疾病 更 强 有 力 的 成 分 。 

不 论 是 由 于 基因 自身 发 生 的 突变 ， 还 是 由 于 组 合 产生 的 新 特性 ， 这 些 都 是 不 确定 性 的 
变化 。 而 客观 世界 上 有 很 多 变化 对 人 类 种 群 做 出 这 种 选择 的 裁剪 ， 出 现 疾病 就 是 裁剪 那些 
对 疾病 耐 受 力 弱 的 人 ， 出 现 饥荒 就 是 裁剪 那些 对 饥 狐 耐 受 力 弱 的 人 ， 出 现 严寒 就 是 裁剪 那 
些 对 严寒 耐 受 力 弱 的 人 。 这 种 “进化 ”可 以 说 谈 不 到 “进化 ”， 而 是 被 动 地 演化 而 后 被 动 地 
被 选择 。 


10.6.2 ”算法 过 程 

在 了 解 了 进化 基因 层面 的 过 程 后 ， 是 要 落实 到 算法 过 程 上 去 的 。 那 么 怎么 来 构建 这 个 
算法 过 程 呢 ?关键 步骤 如 下 。 

(1) 基因 编码 。 在 这 个 过 程 中 ， 尝 试 着 对 一 些 个 体 的 基因 做 一 个 描述 ， 构 造 这 些 基 因 
的 结构 ， 有 点 像 确定 函数 自 变量 的 过 程 。 

(2) 设计 初始 群体 。 在 这 个 环节 ， 需 要 造 一 个 种 群 出 来 ， 这 些 种 群 有 很 多 生物 个 体 但 
是 基因 都 不 相同 。 

(3) 适应 度 计 算 〈 剪 枝 )。 在 这 个 环节 ， 要 造 一 些 “ 上 帝 的 剪刀 ”对 那些 不 太 适 应 的 个 
体 进行 裁剪 ， 不 让 他 们 产生 后 代 。 和 最 终 洲 选 规则 差异 大 的 个 体 肯定 不 适合 作为 备 选 对 象 ， 
该 减 掉 一 定 要 减 掉 ， 否 则 它 产生 的 后 代 只 会 让 计算 量 更 大 而 距离 台 近 目标 没有 增益 。 

(4) 产生 下 一 代 。 产 生 下 一 代 这 个 部 分 有 3 种 办 法 : 直接 选择 ， 基 因 重 组 ， 基 因 突 变 。 

而 后 再 回 到 步骤 3 进行 循环 ， 适 应 度 计 算 ， 产 生 下 一 代 ， 这 样 一 代 一 代 找 下 去 ， 直 到 
找到 最 优 解 为 止 。 

遗传 算法 在 解决 很 多 领域 的 问题 时 都 体现 出 很 好 的 特性 ， 如 TSP 问题 (Traveling 
Salesman Problem， 即 旅行 商 问 题 ， 也 叫 货 郎 担 问 题 )、 九 宫 问 题 ( 八 数码 问题 )、 生 产 调度 
问题 (Job Shop Scheduling)、 背 包 问 题 (Knapsack Problem, BI NP 问题 ) 等 。 

下 面 介绍 一 个 具体 的 解 题 实例 。 


10.6.3 背包 问题 
背包 问题 是 一 种 组 合 优 化 的 NP( 即 多 项 式 复 杂 程 度 的 非 确 定性 问题 ) 完全 问题 ， 这 类 
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NP 问题 的 特点 很 明显 ， 即 “生成 问题 的 一 个 解 通常 比 验证 一 个 给 定 的 解 需要 花费 更 多 的 
时 间 ”。 

先 来 看 一 个 例子 。 

第 一 个 例子 是 合 数 分 解 质 因数 问题 ， 如 果 现 在 有 一 个 命题 ,分 解 合 数 698 975 355 227 
为 几 个 质数 相 乘 的 结果 。 那 么 怎么 算 ? 用 698 975 355 227 去 一 个 一 个 地 除 以 各 个 质数 2、 
3、5、7…… 直 到 V698 975 355 227 。 如 果 能 够 整除 ， 那 就 说 明 这 个 质 因 子 是 存在 的 ， 然 
后 用 698 975 355 227 除 以 这 个 质 因子 的 商 ， 青 重复 上 述 的 过 程 ， 直 到 找到 最 后 一 个 质 因子 为 
止 。 这 是 一 个 非常 耗 时 的 工作 ， 即 便 用 计算 机 ， 这 个 过 程 也 非常 耗 时 。 但 是 如 果 反 过 来 说 ， 
698 975 355 227 是 否 是 809, 887, 977, 997 这 4 个 素数 的 乘积 ， 那 么 验证 起 来 会 非常 快 ， 只 
要 用 一 个 普通 的 计算 器 ， 用 不 了 多 长 时 间 就 能 验算 出 来 。 这 就 是 所 谓 的 “生成 问题 的 一 个 解 
通常 比 验证 一 个 给 定 的 解 需要 花费 更 多 的 时 间 ”。 

背包 问题 的 大 意 是 ， 及 件 物品 和 一 个 容量 为 VV 的 背包 ,第 i 件 物品 的 重量 是 wi, MME 
是 vii], 求解 将 哪些 物品 装 入 缘 包 可 使 这 些 物品 的 重量 总 和 不 超过 背包 容量 ， 且 价值 总 和 最 大 。 

这 种 问题 就 是 典型 的 NP 问题 ， 验 证 一 个 猜想 的 解 比 算出 一 组 解 要 快 得 多 。 

我 们 来 具体 看 一 些 数字 可 能 会 更 直观 一 些 。 

假设 有 一 个 背包 ， 可 以 放置 80 公斤 的 物品 。 此 外 ， 还 有 如 表 10-14 所 示 的 6 件 物 品 。 

怎么 放置 才能 让 背包 里 的 物品 价值 总 和 尽 可 能 多 呢 ? 

有 几 种 思路 ， 第 一 种 就 是 穷 举 法 。 每 种 物品 只 有 存在 (1) 和 不 存 ” 表 10-14 6 件 物品 
TE (0) 两 种 状态 ,那么 一 共 可 能 产生 的 方案 最 多 是 2^ 个 也 就 是 64 个 。 
把 每 种 组 合 具 体 的 重量 和 价值 都 算出 来 ， 超 过 80 公斤 的 方案 就 直接 舍 
去 ， 少 于 80 公斤 的 就 留 下 并 且 记 下 货品 总 价值 ， 到 最 后 比较 每 种 方案 
的 总 价值 大 小 即 可 。 

但 是 如 果 有 128 种 物品 这 个 方案 还 可 行 吗 ? 如 果 穷 举 大 约 有 
3.4x10” 种 方案 ， 如 果 计 算 机 一 秒 能 够 验证 一 亿 种 情况 ， 大 概 需 要 
1.08 x 10” 年 才能 算出 来 ， 这 是 不 可 行 的 。 

这 种 情况 下 ， 遗 传 算法 就 显示 出 优势 来 了 。 下 面 介 绍 在 6 个 物品 的 情况 下 的 求解 方法 。 

1. 基因 编码 

一 共 6 种 物品 ， 每 种 物品 的 有 无 都 可 以 作为 独立 的 一 个 基因 片段 ， 如 表 10-15 所 示 。 

表 10-15 基因 片段 

m RE 

n 

一 共 是 6 位 。 假 如 只 有 物品 2、 物品 3 和 物品 6， 则 染色 体 是 011001。 

2. 设计 初始 群体 

为 了 计算 方便 设置 初始 群体 为 4 个 初始 生物 个 体 ， 随 机 产生 。 
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100100， 对 应 物品 1、 物 品 4 存在。 

101010， 对 应 物品 1、 物品 3、 物 品 5 存在 。 
010101， 对 应 物品 2、 物品 4、 物品 6 存在。 
101011， 对 应 物品 1、 物品 3、 物品 5、 物 品 6 存在。 


3. 适应 度 计算 

适应 度 计算 首先 要 用 一 个 适应 度 的 函数 来 做 标尺 。 

设计 适应 度 的 函数 为 物品 总 价值 ， 那 么 4 个 个 体 各 自 适 应 度 结果 如 下 。 

基因 100100=15+45=60。 

基因 101010=15+35+55=105。 

基因 010101=25+45+70=140。 

基因 101011=15+35+55+70=175. 

在 这 里 不 要 忘记 物品 本 身 还 有 重量 ， 所 以 重量 也 要 作为 判断 标准 之 一 ， 各 自 的 重量 分 
别 如 下 。 

基因 100100=10+25=35。 

基因 101010=10+20+30=60。 

基因 010101=15+25+35=75。 

基因 101011=10+20+30+35=95。 

基因 101011 的 重量 显然 已 经 超过 了 要 求 的 80 公斤 而 直接 被 淘汰 。 

这 样 还 剩 下 : 

基因 100100， 适 应 函数 为 60。 

基因 101010， 适 应 函数 为 105。 

基因 010101， 适 应 函数 为 140。 

先 把 适应 函数 求 和 ，60+105+140=305。 下 面 进行 一 个 用 类 似 轮 盘 赌 来 进行 洲 选 的 过 程 。 

轮 盘 赌 是 一 种 赌博 游戏 ， 如 图 10-23 所 示 ， 整 个 游 T 
戏 道具 是 一 个 大 木 盘 ， 可 以 进行 旋转 。 木 盘 上 刻 着 很 多 
小 格子 ， 每 个 小 格子 上 有 数字 ， 在 轮 盘 开始 旋转 之 后 ， 
放 人 一 个 小 球 沿 盘面 滚动 与 轮 盘 旋转 方向 相反 。 待 轮 盘 
静止 后 ， 小 球 掉 人 的 各 自 所 对 应 的 标号 即 为 获胜 号 码 。 
从 古典 概 型 来 看 ， es 

现在 想象 一 下 ， 这 个 轮 盘 上 有 305 个 格子 ， 其 中 基 
ee 
因 101010 作为 一 个 玩家 选用 了 105 个 小 格子 ， 基 因 
010101 作为 一 个 玩家 选择 了 140 个 小 格子 ， 分 别 作为 自 
己 押 注 的 赌 点 。 
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转动 4 次 一 一 这 个 推荐 为 每 一 代 个 体 的 数量 。 那 么 每 旋转 一 次 , “中奖 ”的 这 个 基因 组 
就 介 许 繁殖 一 次 ， 如 果 一 次 都 没 “ 中 奖 ” 那 么 这 个 基因 将 无 法 得 到 延续 。 在 这 个 例子 里 ， 
基因 100100 每 次 被 入选 的 概率 为 60/305， 基 因 101010 每 次 被 六 选 的 概率 为 105/305， 基 因 
010101 每 次 被 六 选 的 概率 为 140/305。 

这 里 计算 的 结果 为 ， 基 因 101010 和 基因 010101 各 繁殖 两 次 

4. 生产 下 一 代 

基因 101010 和 基因 010101 在 成 功 被 游 选 后 ， 需 要 进行 基因 重组 来 产生 下 一 代 。 计 算 
过 程 如 表 10-16 所 示 。 





表 10-16 Hum 


染色 体 | 配对 xxm E TE 交叉 点 位 置 
101010 101101 | 101010 | quum 
010101 010010 EE 


oes mim rir 其 中 一 对 从 第 三 位 后 面 断 开 ， 尾 部 进行 了 交换 ， 
男 一 六 对 从 第 四 位 后 面 断 开 尾部 进行 了 交换 。 这 样 又 产生 了 4 个 不 同 的 基因 。 一 般 来 说 交 
叉 点 位 置 是 可 以 随机 1 选取 的 。 cierta 两 段 不 同 的 基因 从 中 间断 开 后 进行 结合 ， 
上 段 的 前 半 部 和 下 段 的 后 半 部 结合 成 为 新 的 基因 ， 而 下 段 的 前 半 部 和 上 段 的 后 半 部 结合 成 
为 新 的 基因 。 
















101001 
010110 
















i 





Ce 


图 10-24 基因 重组 
iter rin M UN 个 基因 突变 的 过 程 的 ， 就 是 随机 把 一 定 比 例 的 基因 里 的 某 


一 位 或 者 某 几 位 做 变化 变 成 0，0 变 成 1。 这 个 过 程 建议 还 是 取 法 一 般 的 生物 繁殖 过 
程 ， stie sin pille 在 这 个 例子 里 没有 做 变异 。 

5. 迭代 计算 

下 面 就 是 一 代 一 代用 这 种 准则 做 下 去 了 ， 直 接 求 重量 和 价值 。 








O 图 片 来 源 于 百度 网 库 。 
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基因 101101, 重量 为 90， 价 值 (适应 函数 ) 为 165， 直 接 淘汰 。 

基因 010010, EEX 45, 价值 GEI ERO 为 80。 

基因 101001， 重 量 为 65， 价 值 GE ER) 为 120。 

基因 010110， 重量 为 70， 价 值 (适应 函数 ) 为 125。 

在 这 里 可 以 看 到 一 个 现象 ， 总 体 的 适应 函数 和 为 80+120+125=325， 比 上 一 代 的 
60+105+140=305 适应 性 更 好 ， 貌 似 是 进化 了 ,但 是 上 一 代 是 有 一 个 适应 函数 140 的 “ 超 强 
基因 个 体 ” 的 ， 这 一 代 却 没有 一 个 能 够 超越 。 

在 一 次 完整 的 计算 中 ， 和 迭代 过 程 可 能 会 经 历 几 十 代 甚 至 更 久 ， 如 果 发 现 出 现 了 连续 几 
代 适 应 函数 基本 不 增加 或 者 甚至 反而 减少 的 情况 ， 那 就 说 明 函 数 已 经 收敛 了 。 

“收敛 ”这 个 词 如 果 没 有 在 算法 学 习 中 接触 过 ， 这 里 以 一 个 形象 的 例子 来 说 明 ， 在 体重 
秤 上 称 量 时 ， 当 人 站 上 去 时 ， 指 针 就 开始 抖动 ， 抖 动 幅 度 越 来 越 小 ， 最 后 基本 稳定 在 一 个 
值 。 稳 定 后 ， 读 取 这 个 数字 即 可 。 假 设 体重 秤 称 量 是 有 算法 控制 的 ， 那么 这 个 摆动 几 下 很 
快 就 能 稳定 在 一 个 值 的 就 是 收敛 性 比较 快 (比较 好 ) 的 算法 ; 要 摆动 很 久 才 能 稳定 的 就 是 收 
敛 性 比较 慢 (比较 差 ) 的 算法 ; 如 果 摆 幅 随 着 时 间 的 推移 反而 越 来 越 大 ， 那 收敛 性 就 非常 不 
好 ， 通 党 就 没有 解 。 

在 上 述 例子 中 ， 可 以 就 此 结束 迭代 操作 ， 也 可 以 再 观察 一 代 到 两 代 的 变化 。 收 敛 的 速 
度 会 因 很 多 因素 而 变化 ， 如 基因 位 的 长 度 、 基 因 重 组 时 的 方案 、 基 因 变 异 的 程度 、 每 一 代 
产生 个 体 的 数量 等 。 一 般 发 生 适 应 函数 收敛 时 就 是 迭代 结束 时 。 而 在 迭代 结束 前 找到 的 最 
优 的 解 就 是 要 的 解 。 

6. 注意 事项 

在 使 用 遗传 算法 的 时 候 请 注意 以 下 几 个 地 方 ， 这 几 个 地 方 是 可 以 进行 调整 的 。 

(1) 初始 群体 。 初 始 群体 的 数量 是 可 以 调整 的 ， 可 以 想象 ， 上 述 6 个 物品 的 背包 问题 
的 极限 是 直接 生成 所 有 的 情况 ，2" 也 就 是 64 个 个 体 全 部 列 出 作为 初始 群体 。 但 是 这 毫 无 意 
义 ， 也 不 是 要 使 用 基因 算法 的 目的 。 或 许可 以 考虑 初始 群体 的 数量 设置 为 W 个 ，N 为 当前 
计算 机 最 大 可 并 行 计 算 的 数量 ， 例 如 ， 是 8 核心 的 计算 机 ， 那 就 可 以 设置 为 8 个 个 体 作为 
初始 群体 。 在 每 次 产生 基因 后 把 不 同 的 计算 放 到 不 同 的 线程 中 去 。 当 然 ， 这 也 要 视 并 行 对 
算法 效率 的 改善 程度 而 定 。 此 外 ， 可 以 定性 考虑 ， 初 始 数量 太 少 可 能 会 导致 在 向 量 空 间 中 
覆盖 面积 过 小 而 导致 收敛 到 了 非 最 优 解 就 终止 了 算法 。 

(2) 适应 度 函 数 。 适 应 度 函 数 中 的 轮 盘 赌 算法 只 是 其 中 一 种 算法 ,也 可 以 考虑 使 用 其 
他 算法 进行 洲 选 。 注 意 闭 选 原则 是 从 生物 多 样 化 中 进行 挑选 。 所 以 淘汰 比较 弱 的 基因 是 可 
以 的 , 但 是 不 建议 淘汰 的 比例 太 大 。 

(3) 基因 重组 。 基 因 重 组 这 个 环节 是 变数 比较 大 的 。 断 开 的 位 置 几乎 是 可 以 随意 进行 
的 ， 如 上 述 例子 ,一 个 6 位 长 度 的 基因 , 1-5 WFF, 2-4 WIF, 3-3 IET, 4-2 DT, 5-1 断 开 ， 
都 是 可 选 的 方案 。 其 实在 一 次 产生 后 代 的 过 程 中 是 可 以 允许 以 不 同 的 方案 产生 多 个 后 代 的 ， 
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如 两 个 配对 的 基因 是 可 以 用 2-4 方案 做 两 个 后 代 ， 同 时 再 用 4-2 方案 做 两 个 后 代 的 ， 产 生 4 
个 后 代 是 可 以 的 。 这 样 会 带 来 更 大 的 基因 丰富 性 ， 但 是 同时 也 要 注意 计算 量 如 果 发 生 增 长 ， 
在 若干 代 以 后 铠 怕 会 严重 影响 计算 性 能 。 

另外 相信 读者 也 能 意识 到 ， 不 要 一 个 基因 自身 和 自身 去 做 重组 ， 没 有 意义 ， 因 为 怎么 
重组 还 是 自己 ， 没 有 任何 变化 。 

(4) 迭代 结束 。 这 个 算法 迁 代 结束 的 判断 标准 因 人 而 蜡 ， 但 是 总 体 的 原则 是 ， 如 果 连 
续 观 察 几 代 都 没有 明显 的 适应 函数 的 增长 ， 那 就 说 明 进 化 到 这 几 代 基 本 “到 头 ” 了 。 在 结 
束 迭 代 时 ， 在 这 之 前 找到 的 最 优 解 就 是 能 找到 的 最 优 解 。 

对 于 背包 问题 的 解 ， 在 这 里 也 同样 给 出 一 段 Python 代码 供 读者 参考 : 


4 coding-utf-8 


import random 





# 背包 问题 

# 物品 重量 价格 

A a 
1: [10, 15], 
2: [15, 25], 
3: [20, 35], 
4: [25, 45], 
5: [30, 55], 
6: [35, 701) 

8 终止 界限 


FINISHED LIMIT = 5 


# 重量 界限 
WEIGHT LIMIT = 80 


# 染色 体 长 度 
CHROMOSOME SIZE = 6 


# uve IO 
SELECT NUMBER - 4 


max last = 0 
diff last - 10000 


# 收敛 条 件 、 判 断 退出 

def is finished (fitnesses): 
global max last 
global diff last 


max current = 0 
for v in fitnesses: 
if v[1] » max current: 
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max current = v[1] 


diff - max current - max last 


if diff « FINISHED LIMIT and diff last « FINISHED LIMIT: 


return True 
else: 
diff last - diff 
max last - max current 


return False 


# 初始 染色 体 样 态 


def init(): 
chromosome statel - '100100' 
chromosome state2 - '101010' 
chromosome state3 - '010101' 
chromosome state4 - '101011' 
chromosome states - [chromosome statel, 


chromosome state2, 

chromosome state3, 

chromosome state4] 
return chromosome states 


# 计算 适应 度 
def fitness(chromosome states): 
fitnesses = [] 
for chromosome state in chromosome states: 
value sum - 0 
weight sum = 0 
for i, v in enumerate(chromosome state): 
if int(v) -- 1: 
weight sum += X[i + 1] [0] 
value sum += X[i + 1] [1] 
fitnesses.append([value sum, weight sum]) 


return fitnesses 


# ELS 
def filter(chromosome states, fitnesses): 
# 重量 大 于 80 的 被 淘汰 
index = len(fitnesses) - 1 
while index >= 0: 
index -- 1 
if fitnesses[index] [1] » WEIGHT LIMIT: 
chromosome states.pop(index) 
fitnesses.pop (index) 


LEES 
selected index - [0] * len(chromosome states) 
for i in range(SELECT NUMBER): 
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j = chromosome states.index(random.choice (chromosome states)) 
selected index[j] += 1 


return selected index 


# 产生 下 一 代 
def crossover(chromosome states, selected index): 
chromosome states new - [] 
index - len(chromosome states) - 1 
while index >= 0: 
index -- 1 
chromosome state - chromosome states.pop(index) 
for i in range(selected index[index]): 
chromosome state x - random.choice(chromosome states) 
pos - random.choice(range(1, CHROMOSOME SIZE - 1)) 
chromosome states new.append(chromosome state[:pos] + chromosome state 
x[pos:]) 
chromosome states.insert(index, chromosome state) 


return chromosome states new 


if ^ name  -- ' main ': 
# 初始 群体 
chromosome states = init() 
n - 100 
while n > O0: 
n--1 
# 适应 度 计 算 
fitnesses = fitness(chromosome states) 
if is finished (fitnesses): 
break 


# tik 


selected index - filter(chromosome states, fitnesses) 


# 产生 下 一 代 


chromosome states = crossover(chromosome states, selected index) 


4 1: [[60, 35], [105, 60], [140, 751], [175, 951] 
4 2: [[60, 35], [105, 60], [80, 45], [90, 50]] 

# 3: [[95, 55], [115, 65], [70, 40], [90, 501] 

4 4: [[70, 40], [70, 40], [150, 85], [115, 65]] 
4 5: [[115, 65], [115, 65], [115, 65], [70, 40]] 
4 ['100110', '100110', '100110', '100110'] 


求 出 的 [115, 65] 就 是 要 求 的 解 ， 对 应 的 物品 是 1: [10, 15]. 4: [25, 45]. 5: [30, 55]. 
这 里 用 的 收敛 条 件 是 连续 两 代 的 适应 函数 最 大 值 都 不 再 增加 ， 出 现 这 种 情况 则 判断 为 
收敛 。 
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10.6.4 RABA 


在 遗传 算法 中 再 举 一 个 求 极 大 值 的 例子 。 这 种 例子 也 是 比较 多 见 的 ， 只 要 把 一 些 数据 
关系 描述 成 函数 之 后 就 会 有 一 些 求 极 大 值 或 者 极 小 值 的 问题 。 

其 实 极 大 值 和 极 小 值 是 一 类 问题 ， 即 极 值 问 题 ， 解 题 思 路 也 是 一 样 的 。 

假设 在 空间 里 有 一 个 函数 z=y sin(x) ^ x cos(y)， 图 形 如 图 10-25 所 示 。 











[Esse [150560 


图 10-25 z-ysin(x) +x cos(y) 的 图 形 


假设 这 是 一 个 地 区 中 的 地 形 图 ， 而 且 地 形 每 个 点 的 (x, y, z) 三 维 坐 标 是 可 以 用 z=y sin(x) + 
x cos(y) 这 个 函数 来 进行 摘 述 的 ， 如 果 想 求 这 个 函数 在 x 位 于 [710, 10] 4L y 位 于 [10,10] 之 间 
的 最 大 值 ， 怎 么 求 呢 ? 

可 以 使 用 微 积分 ， 把 z 对 y 求 偏 导 数 ， 把 z 对 x 求 偏 导 数 ， 这 样 能 够 求 出 满足 两 个 偏 导 
数 同 时 为 零 的 x、y 的 解 ， 很 可 能 有 多 个 ， 把 所 有 的 x、y 对 代入 z=y sina) +x coso), SKR 
(x, y, z) 就 是 驻 点 。 每 个 驻 点 的 z 值 比较 大 小 ， 最 大 的 就 是 要 求 的 解 了 。 没 学 过 微 积分 的 朋 
友 也 先 别 着 急 ， 我 们 今天 介绍 的 不 是 这 种 微 积分 领域 常用 的 办 法 ， 还 是 考虑 用 遗传 算法 的 
思路 来 做 。 

可 以 想象 ， 在 这 个 地 区 无 规律 地 放置 很 多 人 ， 有 的 在 谷底 ， 有 的 在 半山 腰 ， 有 的 可 能 
已 经 在 山顶 或 者 山顶 附近 。 那 么 下 面 让 他 们 一 代 一 代 生 生 不 息 地 繁殖 ， 凡 是 能 疏 得 更 高 的 
就 留 下 。 有 了 这 个 思路 就 可 以 按部就班 地 求解 。 


1. 基因 编码 
首先 这 里 的 基因 编码 问题 就 和 背包 问题 不 一 样 。 背 包 问题 属于 离散 型 的 自 变 量 ， 一 个 
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物品 在 背包 里 要 么 有 要 么 没有 ， 即 便 是 128 个 物品 ， 也 知道 一 共 是 有 2” 种 情况 ， 基 因 编 
码 最 多 用 128 bit 也 就 够 了 。 

但 是 这 个 例子 中 ， 有 两 个 自 变量 x 和 ?yy， 这 两 个 自 变 量 都 是 实数 。 根 据 实 数 稠密 性 原 
FE. 在 [710,10] 之 间 是 有 无 穷 多 个 实数 ,没有 办 法 用 类 似 背 包 问 题 中 的 基因 编码 的 办 法 穷 
举 所 有 的 实数 可 能 性 。 

但 是 ， 电 子 计算 机 在 做 所 有 实数 运算 时 其 实 是 没有 那么 精确 的 ， 因 为 本 身 用 电子 计算 
机 来 计算 实数 就 是 一 个 用 离散 解决 连续 ， 用 有 穷 解 决 无 穷 的 方案 ， 本 身 就 有 天 生 的 不 可 逾 
越 的 局 限 性 。 不 管用 64 bit 还 是 用 128 bit 描述 一 个 实数 都 太 有 限 了 ， 所 以 需要 一 个 精度 限 
制 ， 也 就 是 有 效 数 字 。 问 题 是 应 该 取 多 少 位 有 效 数 字 ? 

理想 地 ， 对 于 有 效 数 字 应 该 是 尽 可 能 多 取 ， 有 多 少 取 多 少 ， 但 是 在 实际 生活 中 却 不 这 
么 做 。 原 因 也 很 简单 ， 多 取 有 效 数 字 本 来 是 为 了 提高 精确 度 ， 降 低 误 差 与 成 本 。 然 而 多 取 
有 效 数 字 同 样 需要 更 多 的 成 本 ， 而 多 出 的 有 效 数字 的 增长 对 提高 收益 如 果 没 有 明显 的 好 处 ， 
那 显然 取 太 多 有 效 数 字 反 而 是 不 划算 的 。 

例如 ， 在 平时 购物 时 取 到 元 小 数 点 后 2 位 就 够 了 ， 因 为 再 小 的 货币 单位 也 不 发 行 ， 青 
往 后 标记 更 小 的 标价 单位 毫 无 意义 。 一 些 大 宗 交 易 的 物品 单价 通常 会 取得 比较 多 ， 如 小 米 
FHL, iPhone 手机 中 的 电子 元 件 ， 很 多 出 厂 单价 才 0.005 元 一 个 甚至 更 低 。 但 是 由 于 购买 量 
巨大 ， 一 批 就 是 以 千 万 个 原件 作为 单位 的 购买 量 ，1 000 万 个 电子 元 件 就 是 50 000 元 人 民 币 
了 ， 这 种 情况 下 取 4 位 小 数 就 有 意义 。 再 如 生产 CPU 用 的 高 纯 硅 通常 是 99.999 999 999% 
的 ， 纯 度 低 了 无 法 支持 22 nm 级 别 的 生产 工艺 。 太 阳 能 板 硅 板 就 不 需要 这 么 精细 了 ， 一 般 
99.99% 就 能 满足 ， 如 果 超 过 99.9999% 只 会 增加 成 本 。 

所 以 对 于 那些 无 法 感知 精确 的 ， 感知 了 也 无 法 把 控 的 ， 把 控 了 也 对 提高 效益 无 意义 的 ， 
这 些 场 合 下 的 精度 提升 就 没 必 要 了 ， 在 生产 生活 中 可 酌情 进行 取舍 。 

再 回 到 上 述 例子 ， 如 果 人 允许 一 定 的 误差 ， 只 要 误差 足够 小 其 实 就 已 经 能 够 满足 模型 的 
WORT. 

假设 从 -10 到 10 之 间 指 的 是 一 个 20 公 里 的 地 带 ， 那 么 取 精 度 为 1 米 可 以 理解 为 
[-10.000,10.000] 这 个 区 间 范 围 ， 取 精度 0.1 米 就 可 以 理解 为 [-10.0000,10.0000] 的 范围 ， 
这 里 假设 1 米 的 精度 已 经 能 够 满足 误差 要 求 ， 那 么 取 [710.000,10.000] 作为 取 值 范围 ， 这 样 
无 限 就 变 成 有 限 了 ， 这 里 实际 是 20 001 种 取 值 。 

如 果 还 是 要 用 二 进 制 来 进行 基因 编码 应 该 选用 多 少 位 呢 ? 2^ 是 16 384, 2" 是 32 768, 
因为 这 里 有 20001 种 情形 ， 所 以 取 15 bit 作为 基因 描述 ,x 和 了 都 用 15 bit 的 基因 一 一 这 已 
经 能 够 覆盖 所 有 的 设想 样本 。 

那么 下 一 个 问题 就 是 把 一 个 15 bit 的 二 进 制 数字 映射 到 [-10.000,10.000] 这 个 区 间 里 
去 。 用 第 一 位 作为 正 负数 的 标识 ， 剩 下 14 bit 作为 具体 数字 的 标识 ， 这 样 这 个 15 bit 的 数字 
就 成 为 了 [-16 383,0] 和 [0,16 383] 两 个 区 间 取 并 集 了 ,注意 集合 里 的 元 素 都 是 整数 。 再 把 
每 个 数字 除 以 16 383 除 以 1 000， 取 值 范围 就 被 压缩 在 [710.000,10.000] 之 间 了 。 

注意 在 这 里 为 了 让 区 间 包 括 两 边 的 边界 点 ， 做 一 个 小 小 的 变换 。 
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定义 F(x) 的 内 容 如 下 : x* 是 自 变量 ， 为 二 进 制 数字 ， 首 位 为 0 代表 正 数 ， 首 位 为 1 代 
表 负 数 ， 函 数值 为 x 对 应 的 十 进 制 数字 。 那 么 就 完成 了 编码 到 整个 定义 区 间 上 的 映射 F(x)， 
最 后 表示 二 进 制 到 实数 值 的 函数 H(x) 定义 如 下 : 
FE! 
16 384 
,F(x)-1 
16 384 


10 F(x)z0 





H(x)- 


10 F(x)&0 


但 是 这 里 有 两 个 问题 。 

问题 1: F(x) 2 0 和 F(x) « 0 是 有 重合 部 分 的 ，F(x) = 0 究竟 算 谁 的 。 补 充 说 明 一 
下 ， 这 个 写法 确实 是 不 够 严 道 ， 具 体 意义 是 指 x 的 首位 是 0 还 是 1 的 情况 ， 是 0 那 就 算 
Fœ) > 0, 是 1 那 就 算 F(x) « 0， 因 为 确实 后 面 14 bit 都 是 0 的 情况 下 ， 不 管 首 位 是 0 还 是 
1 代表 值 都 是 0。 


问题 2: 10. £2 q0. 0971 


16384 16384 
的 [-10.000,10.000], Æ f [—10.000,0) 和 (0,10.000], 0 从 自 变 量 范 围 里 被 拿 掉 了 。 这 是 
为 了 计算 方便 ， 但 是 由 于 确信 0 不 是 要 的 解 ， 不 管 是 x= 0 还 是 y=0， 所 以 从 解 里 面 把 所 有 
x — 0 的 情况 以 及 所 有 y= 0 的 情况 都 去 除了 ， 这 个 变换 不 影响 最 终 求解 。 如 果 觉 得 不 放心 ， 
那么 可 以 尝试 重新 构造 这 个 映射 关系 ， 把 [-10.000,10.000] 所 有 的 点 都 覆盖 到 。 
最 后 计算 映射 关系 的 具体 值 : 


分 别 构成 了 x 正 负 两 个 部 分 ， 但 是 区 间 却 不 是 原来 说 








F(x)41 
(000000100100100), = 292， 对 应 的 10: (X) = 0.179, 
16384 
na F(x)-1 
(111000100110110), = —12 598, 对 应 的 10. 和 2 = —7.690, 


怎么 样 ， 容 易 吧 ， 用 现在 流行 的 词 儿 来 说 那 就 是 一 一 “完美 ”。 


2. 设计 初始 群体 

设计 初始 群体 是 第 二 个 要 解决 的 大 问题 。 

倾斜 一 下 看 这 个 小 世界 ， 如 图 10-26 所 示 ， 要 设置 一 些 初始 化 的 人 让 他 们 一 代 一 代 繁 
衍 后 代 ， 能 疏 得 更 高 的 就 继续 观察 ， 疏 不 高 的 就 不 管 了 。 在 刚刚 设计 的 基因 里 其 实 有 两 条 
基因 ,一 条 是 x, 一 条 是 y， 这 两 条 基因 各 有 15 个 基因 信息 点 ， 也 就 是 25 个 可 能 值 ， 随 机 
产生 8 组 基因 ， 如 表 10-17 所 示 。 


3. 适应 度 计算 

适应 度 在 这 个 场景 里 不 难 设 计 ， 用 z=y sin(x)*x cos(y) 即 可 ，z 就 是 适应 度 。 

4. 产生 下 一 代 

在 这 个 场景 里 ， 在 每 一 代 都 可 以 让 1 个 染色 体 中 的 基因 X 之 间 和 基因 站 之 间 进 行 组 
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合 ， 如 表 10-18 所 示 。 














图 10-26 ”z=y.sin(x)+x.cos(y) 的 图 形 


表 10-17 8 组 基因 


| 6 | 101000100100100 | 
| 8 | 10010101101000 | 















101010101010101 
111100001111000 
101010101010101 
000011110000111 











表 10-18 基因 组 合 








000000100101001 101010101010101 1X+2X 
011000100101100 001100110011001 IY«-2Y 


如 果 染 色 体 1 和 2 进行 结合 ， 那 么 : 
1 染色 体 的 义 基 因 的 前 7 位 和 2 染色体 的 X 基 因 的 后 8 位 将 结合 
1 染色 体 的 Y 基因 的 前 7 位 和 2 染色 体 的 Y 基因 的 后 8 位 将 结合 。 


XA: 000000100101100 
YA: 101010110011001 
XB: 011000100101001 
YB: 001100101010101 






o 
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2 染色 体 的 X 基因 的 前 7 位 和 1 染色 体 的 X 基因 的 后 8 位 将 结合 。 

2 染色 体 的 Y 基因 的 前 7 位 和 1 染色体 的 Y 基因 的 后 8 位 将 结合 。 

由 此 形成 XA、YA、XB、YB 4 个 后 代 基 因 ，XA 和 YA 将 成 为 新 的 一 组 染色 体 ，XB 
和 YB 将 成 为 新 的 一 组 染色 体 ， 形 成 两 个 完整 的 后 代 基 因 染 色 体 组 。 

如 果 是 8 组 作为 初始 种 群 的 大 小 ， 就 有 Cs =28 种 组 合 方式 ， 而 每 一 种 组 合 产生 2 个 后 
代 ， 那 么 实际 上 第 一 代 以 后 就 产生 56 个 个 体 。 

这 56 个 个 体 的 适应 度 可 以 进行 排序 ， 只 取出 排名 前 8 的 个 体 。 

这 里 同样 可 以 允许 一 定 的 基因 突变 性 ， 在 8 个 已 六 选 的 个 体 中 ， 随 机 找到 两 个 个 体 ， 
让 这 两 个 个 体 其 中 一 个 x 染色体 发 生变 异 而 让 男 一 个 yy 染色体 发 生变 异 ( 这 个 例子 由 x 和 yy 
两 个 自 变量 构成 的 染色 体 碰巧 跟 人 类 的 性 染色 体 同 名 )。 变 异 也 是 随机 改变 x 染色体 中 的 某 
一 位 ， 或 随机 改变 y 染色 体 中 的 某 一 位 。 

这 之 后 再 进行 两 两 重组 的 计算 ,产生 下 一 代 。 

这 里 注意 以 下 两 点 。 

(1) 断 开 点 的 位 置 。 理 论 上 ， 断 开 点 的 位 置 是 任意 的 ,但 是 断 开 点 靠 左 对 数值 影响 变 
化 大 ， 自 变量 “跳跃 ”范围 也 就 大 ; 断 开 点 靠 右 对 数值 影响 变化 小 ， 自 变量 “跳跃 ”范围 
也 就 小 。 

(2) 基因 变异 的 位 置 。 和 断 开 点 位 置 的 影响 是 完全 一 样 的 ， 同 样 是 变异 点 靠 左 自 变 量 
“跳跃 ”范围 大 ， 变 异 点 靠 右 自 变量 “跳跃 ”范围 小 。 

5. 迁 代 计算 

这 里 直接 看 迭代 计算 的 代码 和 执行 过 程 。 请 注意 ， 由 于 其 中 有 很 多 随机 的 因素 ， 所 以 
计算 的 过 程 结 果 可 能 会 不 一 致 ， 迭 代 的 代数 也 可 能 不 一 致 ， 但 是 最 终结 果 应 该 都 是 一 样 的 。 

stcoding-utf-8 

import random 


import math 
import numpy as np 


# 染色 体 长 度 
CHROMOSOME SIZE = 15 


# 判断 退出 
def is finished(last three): 
S - sorted(last three) 
if s[0] and s[2] - s[0] < 0.01 * s[0]: 
return True 
else: 
return False 


# 初始 染色 体 样 态 


def init(): 
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chromosome statel = ['000000100101001', '101010101010101'] 
chromosome state2 = ['011000100101100', '001100110011001'] 
chromosome state3 = '001000100100101', '101010101010101'] 
chromosome state4 - ['000110100100100', '110011001100110'] 
chromosome state5 = ['100000100100101', '101010101010101' 
chromosome state6 - ['101000100100100', '111100001111000'] 
chromosome state7 - ['101010100110100', '101010101010101'] 
chromosome state8 - ['100110101101000', '000011110000111' 
chromosome states - [chromosome statel, 
chromosome state2, 
chromosome state3, 
chromosome state4, 
chromosome state5, 
chromosome state6, 
chromosome state7, 
chromosome state8] 
return chromosome states 
# 计算 适应 度 
def fitness(chromosome states): 
fitnesses - [] 
for chromosome state in chromosome states: 
if chromosome state[0][0] == '1': 
x = 10 * (-float(int(chromosome state[0][1:], 2) - 1)/16384) 
else: 
x = 10 * (float (int(chromosome state[0], 2) + 1)/16384) 
if chromosome state[1][0] == '1': 
y = 10 * (-float (int(chromosome state[1][1:], 2) - 1)/16384) 
else: 
y = 10 * (float (int(chromosome state[1], 2) + 1)/16384) 
z= y * math.sin(x) + x * math.cos(y) 


fitnesses . append (z) 


return fitnesses 


# 筛选 
def filter(chromosome states, fitnesses): 


#top 8 对 应 的 索引 值 


chromosome states new = [] 
topl fitness index - 0 
for i in np.argsort (fitnesses) [::-1] [:8].tolist(): 


chromosome states new.append(chromosome states [i] ) 
topl fitness index - i 
return chromosome states new, topl fitness index 


# 产生 下 一 代 

def crossover(chromosome states): 
chromosome states new - [] 
while chromosome states: 


chromosome state - chromosome states.pop(0) 


ww ai bbt. com [1 E D] B] EL D] D] 


for v in chromosome states: 
pos - random.choice(range(8, CHROMOSOME SIZE - 1)) 
chromosome states new.append([chromosome state[0][:pos] + v[0] [pos:], 
chromosome state[1][:pos] + v[1] [pos:11) 
chromosome states new.append([v[0] [:pos] + chromosome state[l1][pos:], 
v[0] [:pos] + chromosome state[1]f[pos:]11) 
return chromosome states new 


8 基因 突变 
def mutation(chromosome states): 
n = int(5.0 / 100 * len(chromosome states)) 
while n » 0: 
n--1 
chromosome state - random.choice(chromosome states) 
index - chromosome states.index(chromosome state) 
pos = random.choice (range (len(chromosome state))) 
x = chromosome state[0][:pos] + str(int(not int (chromosome state[0] [pos] ) ) )+ 
chromosome state [0] [pos+1:] 
y = chromosome state[1][:pos] + str(int(not int(chromosome state[1] [pos]))) + 
chromosome state[1][pos-41:] 
chromosome states[index] = [x, y] 


if | name  -- ' main ': 
chromosome states - init() 
last three - [0] * 3 
last num = 0 
n = 100 
while n > 0: 
n--1 
chromosome states - crossover(chromosome states) 
mutation(chromosome states) 
fitnesses - fitness(chromosome states) 
chromosome states, topl fitness index - filter(chromosome states, fitnesses) 


last three[last num] = fitnesses[topl fitness index] 
if is finished(last three): 
break 


if last num »- 2: 
last num = 0 
else: 
last num += 1 


4x: 7.698 974 609 38 7y:7.698 974 609 38 2:8.795 289 238 25 
dx: -B.356 933 593 75  y:-8.356 933 593 75 z:11.350 199 424 9 


这 里 最 后 的 收敛 条 件 是 计算 每 一 代 的 适应 函数 最 大 值 并 记录 ， 判 断 最近 3 代 的 最 大 值 
如 何 变化 。 如 果 最 近 3 代 的 适应 函数 最 大 值 相 比较 ， 第 一 大 的 〈 最 大 的 ) 比 第 三 大 的 〈 最 小 
的 ) 增益 小 于 1%， 那 么 就 判断 为 收敛 。 这 种 收敛 的 速度 非常 快 ， 大 概 3 到 4 代 就 可 以 收敛 
完毕 求 出 最 优 解 。 当 然 ， 这 个 部 分 同样 可 以 再 讨论 采用 更 为 考究 的 计算 方式 ， 有 兴趣 的 读 
者 可 以 继续 研究 。 
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请 注意 ， 在 执行 这 段 代码 中 可 能 会 发 现 这 么 一 个 问题 : 有 的 时 候 z 值 会 收敛 到 8.8 附近 ， 
此 时 x 和 ?都 在 7.7 附近 ， 就 像 例子 中 给 出 的 这 个 数字 ; 有 的 时 候 z 值 会 收敛 到 11.35 附近 ， 
此 时 xz 和 ?都 在 -8.35 附近 。 从 这 两 种 不 同 的 解 来 看 ， 可 以 知道 后 者 应 该 是 正确 的 而 前 者 
是 不 正确 的 。 

从 图 10-27 中 可 以 看 出 ， 圆 圈 加 住 的 位 置 就 是 (7.7, 7.7) 附近 的 点 ， 而 实际 上 正确 的 解 
在 方 框 圈 住 的 位 置 (78.35, -8.35)。 为 什么 会 出 现 这 种 现象 呢 ? 其 实 也 不 难 理解 ， 就 是 在 繁 
殖 下 一 代 时 又 出 现 一 次 播 撤 的 情况 ， 但 是 播撒 不够 均匀 ， 导 致 部 分 想到 “圆圈 山 ” 位 置 的 
种 群 个 体 表现 格外 良好 ， 其 他 种 群 如 在 “ 方 框 山 ” 半 山腰 的 就 没 能 被 六 选 一 一 凡是 第 9 名 
开外 的 都 被 淘汰 。 这 样 是 有 相当 的 概率 会 收敛 到 7.7 附近 的 “圆圈 山 ” 的 。 这 一 类 的 问题 可 
能 以 后 在 写 遗 传 算法 中 也 同样 会 遇 到 ， 请 读者 注意 。 





















图 10-27 z=y.sin(x)+x.cos(y) 的 图 形 


这 一 类 问题 可 以 考虑 以 下 两 个 解决 方法 。 

方法 一 : 初始 种 群 扩 大 化 。 

初始 种 群 可 以 不 止 8 个， 可 以 是 16 个 、32 个 , 或 者 更 多 ， 总 之 就 是 一 开始 就 使 得 第 一 
代 有 足够 的 机 会 疏 到 “ 方 框 山 ” 的 比较 好 的 位 置 去 。 

方法 二 : 每 一 代 六 选 增加 名 额 。 

每 一 代 现在 只 是 留 下 8 个 种 群 个 体 ， 同 样 的 ， 可 以 留 下 16 个 、32 个 ， 也 一 样 会 让 更 多 
疏 到 “ 方 框 山 ” 较 高 位 置 的 对 象 存活 下 来 。 

这 两 种 方法 都 采用 之 后 是 可 以 让 找到 最 优 解 的 概率 大 大 增加 的 。 
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10.7 小 结 


本 章 是 整 本 书 中 比重 比较 大 的 一 章 ， 也 是 因为 分 类 算法 在 生产 生活 中 使 用 得 也 最 为 
广泛 

应 该 注意 到 ， 大 部 分 的 分 类 算法 都 是 基于 统计 概率 的 分 类 算法 ， 而 凡是 基于 统计 概率 
的 分 类 算法 究 其 本 质 仍然 是 贝 叶 斯 概率 体系 下 的 分 类 原则 。 以 SVM 算法 为 例 ， 要 找 超 平 
面 来 做 类 别 的 区 分 ， 但 是 类 别 区 分 的 原则 仍旧 是 根据 已 知 样 本 的 特征 情况 ， 也 就 是 抽象 后 
的 多 维 空间 向 量 信 息 特征 来 做 分 类 标准 。 在 超 平面 确定 后 ， 对 新 的 待 分 类 样本 仍然 是 根据 
一 个 向 量 的 特征 值 来 判断 其 属于 某 分 类 或 不 属于 某 分 类 的 概率 为 多 少 ， 究 竟 是 哪 一 种 更 高 。 
SVM 本 质 上 仍旧 是 根据 特征 向 量 在 空间 的 分 布 来 拟 合 分 类 概率 。 在 判断 新 的 待 分 类 样本 
时 ， 如 果 待 分 类 样本 处 在 超 平面 附近 ， 那 就 仍然 是 一 个 模棱两可 的 样本 ,是 一 个 归属 或 不 
归属 一 个 分 类 概率 相当 的 情况 。 

此 外 ， 有 误 判 的 问题 几乎 是 没 办 法 避免 的 ， 虽 然 这 个 结论 多 少 让 人 觉得 有 点 诅 形 。 但 
是 ， 只 要 算法 本 身 的 成 本 和 误 判 带 来 的 损失 在 一 个 可 接受 的 范围 内 即 可 ， 千 万 不 要 过 于 纠 
结 高 精度 而 庄 足 不 前 。 

遗传 算法 在 数学 上 其 实 是 采用 梯度 下 降 的 方法 来 求解 问题 的 。 所 谓 梯 度 在 第 8 章 介绍 
最 小 二 乘法 时 已 经 涉及 ， 只 是 当时 没有 这 么 提 。 在 最 小 二 乘法 时 设计 的 函数 Ola, b) 中 ， 
误差 Q 是 一 个 用 a 和 4b 表示 的 函数 ， 其 实 也 可 以 看 成 z(x, y), z 是 用 x 和 ?来 表示 的 。 在 讨 
论 Q(a, b) 的 极 值 时 ,说 到 了 偏 微分 的 概念 ， 也 就 是 求 沿 着 a 轴 方 向 和 4b 轴 方 向 的 多 组 齐 面 
上 的 切线 斜率 问题 ， 最 后 找到 两 个 方向 上 的 斜率 为 0 的 位 置 作为 候选 点 。 这 个 结果 是 通过 
数学 上 求 偏 导数 的 方式 推 必 计算 出 来 的 。 而 梯度 下 降 的 方法 与 此 不 同 ， 它 的 思路 是 ， 不 求 
偏 导数 ,但 是 沿 着 整个 曲面 “行进 "， 当 行进 同样 单位 距离 时 函数 值 变化 大 ， 那 就 说 明和 斜率 
Xs 而 当 行 进 同 样 单位 距离 时 函数 值 变化 小 ， 那 就 说 明和 斜率 小 。 当 行进 一 次 函数 值 变 化 趋 
yr 0 时， 那 就 说 明 到 了 驻 点 附近 。 这 也 是 一 种 很 巧妙 的 思路 。 在 极 大 值 问题 求解 的 过 程 中 
已 经 展示 过 这 种 方式 的 思路 了 。 

这 种 方式 在 地 理 地 形 图 上 的 表现 形式 如 图 10-28 所 示 。 

在 地 理 课 本 上 会 有 地 形 图 ， 而 地 形 图 中 最 容易 让 人 产生 画面 感 的 莫 过 于 等 高 线 图 。 图 
10-28 上 用 方 框 圈 出 的 部 分 等 高 线 稠密 ， 表 示 地 形 高 度 变化 快 ， 坡 度 陡 峭 ; 用 椭圆 圈 出 的 
部 分 等 高 线 系数 ， 表 示 地 形 高 度 变化 慢 ， 坡 度 平 经。 梯度 下 降 法 实际 上 是 在 找 等 高 线 稀 下 b 
的 地 方 ， 那 一 定 是 一 个 趋 于 平缓 的 地 带 ， 要 么 在 谷底 ， 要 么 在 峰 顶 。 这 就 是 梯度 下 降 法 的 
Ax. 

分 类 属于 有 监督 的 学 习 过 程 ， 这 个 过 程 中 使 用 者 可 以 根据 经 验 以 及 数学 推导 等 辅助 方 
法 给 机 器 一 些 指导 ， 帮 助 机 器 剪 枝 、 收 敛 、 去 噪 等 ， 让 计算 变 得 更 加 快捷 ， 更 加 准确 。 
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(b) 丘陵 一 一 地 势 较 低 ， 起 伏 较 小 





， 四 周 为 山 丘 环绕 





(e) 平原 一 一 地 势 最 低 平 ， 起 伏 最 小 


图 10-28 地形 图 
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在 学 习 完 聚 类 和 分 类 之 后 ， 补 充 性 地 讨论 一 下 关联 分 析 。 l 

关联 规则 也 是 人 类 在 认识 客观 事物 中 形成 的 一 种 认 知 模式 。 这 种 关联 规则 在 人 的 认 知 
里 与 反射 类 似 。 如 在 小 时 候 不 小 心 被 针 扎 到 ， 会 有 痛感 ， 这 样 针 刺 和 痛感 就 在 大 脑 里 有 了 
这 种 关联 。 再 如 ， 小 时 候 在 不 伐 任何 电学 原理 时 也 可 以 发 现 按 下 电灯 开关 ， 电 灯 就 会 点 亮 ， 
再 按 一 次 ， 电 灯 就 会 关闭 。 这 个 对 于 电灯 开关 的 动作 就 和 电灯 亮 灭 的 事件 形成 了 关联 关系 。 
这 就 是 人 在 认识 事物 的 过 程 中 在 认 知 中 所 建立 的 关联 规则 ， 即 通过 与 客观 世界 互动 ， 发 现 
事物 之 间 存 在 的 依赖 或 者 因果 关系 。 

本 章 讨论 的 关联 分 析 应 该 说 是 数据 挖掘 教程 体系 里 最 为 经 典 的 部 分 之 一 ， 也 是 尝试 在 
数据 中 发 现 依赖 或 者 因果 关系 的 方法 。 这 其 中 还 有 一 个 更 为 经 典 的 案例 ， 即 几乎 在 每 本 BI 
(商业 智能 ) 教材 或 者 数据 挖 抉 教材 里 都 会 讲 到 的 “啤酒 和 尿布 ”案例 。 

据说 事情 发 生 在 20 世纪 80 年 代 的 美国 沃尔玛 ， 销 售 经 理 经 过 研究 零售 记录 发 现 啤酒 
和 尿布 会 同时 出 现在 很 多 购物 记录 里 ， 令 人 百 思 不 得 其 解 。 经 过 观察 发 现在 这 个 地 区 有 
很 多 年 轻 的 父亲 会 时 常 光顾 超市 ， 在 超市 里 为 孩子 购买 尿布 的 同时 也 会 为 自己 买 上 一 些 啤 
酒 。 从 此 ， 超 市 经 理 借 题 发 挥 ， 又 专门 把 啤酒 和 尿布 的 销售 货架 放 在 一 起 ， 进 而 让 啤酒 和 
尿布 的 销量 进一步 提高 。 

虽然 后 来 也 有 一 些 专家 说 这 个 案例 是 假 的 ， 根 本 没 那么 回 事 ， 完 全 是 BI 产品 的 销售 
人 员 杜 撰 出 来 的 。 不 论 该 案例 的 真 假如 何 ， 这 种 研究 方式 却 是 在 零售 行业 得 到 了 比较 广泛 
的 应 用 ， 这 种 分 析 也 称 作 “购物 篮 ” 分 析 。 我 们 一 起 来 看 一 下 ， 这 个 分 析 过 程 是 怎么 实 
现 的 。 
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11.1 频繁 模式 和 Apriori 算法 


一 个 超市 里 每 天 有 很 多 的 购物 记录 ， 很 多 大 卖场 每 天 甚至 可 能 有 数 万 笔 交 易 ， 为 了 示 
例 的 方便 假设 一 共有 5 个 购物 记录 。 


CHA, ÆW, AR, DE, BRA, LER) 

记录 2: 

(红酒 ， 香 烟 ， 巧 克 力 糖 ， 酸 奶 ) 

记录 3: 

(牙刷 ， 奶 糖 ， 食 盐 ， 冷 冻 鸡肉 ， 卫生纸) 

记录 4: 

(啤酒 ， 一 次 性 酒杯 ， 香 烟 ， 瓜 子 ， 花 生 ， 油 炸 莫 片 ) 
记录 5: 


(酸奶 ,巧克力 糖 ， 味 精 ) 
每 个 记录 相当 于 在 超市 发 生 的 一 笔 结算 ， 一 个 购物 者 把 篮子 里 的 商品 都 一 起 扫 码 付 账 。 


11.1.1 ”频繁 模式 

首先 要 明确 一 点 ， 就 是 在 每 个 购买 记录 中 出 现 的 各 种 单 品 其 实体 现 的 是 一 种 组 合 的 性 
质 。 也 就 是 说 ， 消 费 者 在 购买 了 一 种 单 品 的 同时 又 购买 了 另 一 种 单 品 。 而 且 ， 这 些 单 品 的 
组 合 在 记录 中 是 无 序 的 ， 也 就 是 无 法 知道 在 记录 1 中 究竟 是 先 “购买 ”了 啤酒 然后 诱 使 他 
又 “购买 ”了 香烟 ， 还 是 先 “购买 ” 了 香烟 后 来 又 购买 了 啤酒 。 因 此 只 能 研究 一 个 无 序 的 
组 合 ， 这 种 组 合 就 叫做 “模式 ”。 

这 些 模式 里 ， 有 的 出 现 频率 很 低 ， 有 的 出 现 频率 很 高 ， 一 般 认 为 频率 较 高 的 通常 更 有 
指导 意义 ， 这 种 高 频率 的 模式 就 被 称 作 “频繁 模式 "”。 

先 尝试 着 把 刚刚 这 些 记录 内 容 放 入 一 个 关系 型 数据 库 的 表格 进行 存储 以 备 实验 。 也 可 
以 尝试 使 用 数组 、 内 存 向 量 等 其 他 形式 ， 这 些 并 不 影响 Apriori 算法 的 结果 。 购 物 记录 表 
Buy list 如 表 11-1 所 示 。 

表 11-1 购物 记录 表 Buy-list 
单 品 类 别 (Type) 流水 号 (Serial) 








单 品类 别 (Type) 






流水 号 (Serial) 
0001 

0001 
0001 



























酸奶 
巧克力 糖 
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假设 已 经 把 这 个 信息 变 成 了 一 张 表 Buy_list， 表 至 少 有 两 个 字段 Serial 和 Type。 注意， 
在 数据 仓库 里 ， 通 常 Type 这 个 字段 是 一 个 类 别 编码 ， 而 不 是 一 个 具体 的 汉字 品名 描述 。 


11.1.2 ”支持 度 和 置信 和 度 
刚刚 介绍 过 一 个 频繁 模式 的 概念 ， 即 一 般 认为 频率 较 高 的 模式 叫做 频繁 模式 。 衡 量 频 
率 的 指标 有 两 个 : 一 个 是 支持 度 ， 一 个 是 置信 和 度 。 
这 两 个 指标 分 别 指 的 是 这 种 模式 的 有 用 性 和 确定 性 。 设 置 门限 “最 小 支持 度 ” 和 “最 
小 芯 信 和 度 ”， 支 持 度 和 兽 信 和 度 同 时 高 于 这 两 个 门限 就 可 以 认为 是 频繁 模式 了 。 
例如 ， 购 买 (啤酒 ， 和 香烟) 模式 的 支持 度 为 40%， 那 就 是 说 所 有 的 购买 记录 里 (例子 里 
是 5 个 )， 有 40% 的 购买 记录 都 包含 这 种 模式 。 
置信 度 是 有 “方向 性 ”的 ， 如 果 说 购买 啤酒 的 记录 里 有 10096 的 记录 都 购买 了 香烟 ， 那 
么 就 说 购买 啤酒 后 购买 香烟 的 置信 度 为 100% ; 反 向 地 看 ， 如 果 购 买 了 香烟 的 记录 有 67% 
的 记录 都 购买 了 啤酒 ， 那 么 就 说 购买 香烟 后 购买 啤酒 的 置信 和 度 为 67%。 
为 了 表达 简便 ， 也 党 记录 如 下 : 
啤酒 => 香烟 [support=40%; confidence-10094] 
香烟 => 啤酒 [support-4096; confidence-6794] 
JH SQL 语句 能 够 很 快 地 算出 一 个 模式 的 支持 度 和 置信 度 。 
啤酒 => 香烟 ， 支 持 度 计算 的 代码 如 下 : 
SELECT 
TRANSACTION COUNT.COUNT NUMBER/ TRANSACTION ALL.COUNT NUMBER 
FROM 
( 


SELECT COUNT(*) COUNT NUMBER 
FROM 


(SELECT Serial FROM Buy list WHERE Type-' 啤酒 ') R1 
INNER JOIN 

(SELECT Serial FROM Buy list WHERE Type-' 香烟 ') R2 
ON 


R1.Serial-R2.Serial 
) TRANSACTION COUNT 
INNER JOIN 
( 
SELECT COUNT(DISTINCT Serial) COUNT NUMBER 


FROM 

Buy list 
) TRANSACTION ALL 
ON 1-1; 


看 上 去 内 容 比 较 多 ， 但 逻辑 很 简单 。 
RI 是 找 出 所 有 有 啤酒 的 Serial, R2 是 找 出 所 有 有 香烟 的 Serial， 这 样 TRANSACTION - 
COUNT.COUNT NUMBER 就 是 同时 既 有 啤酒 又 有 香烟 的 Serial 的 数量 了 。 后 面 TRANSACTION 
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ALL.COUNT_NUMBER 是 所 有 购买 记录 的 数量 。 两 者 相 除 得 到 支持 度 。 
啤酒 => 香烟 ， 置 信和 度 计 算 的 代码 如 下 : 
CREATE TABLE TEMP(R1 Serial VARCHAR(64), R2 Serial VARCHAR(64)) AS 
SELECT * 


FROM 
(SELECT Serial R1 Serial FROM Buy list WHERE Type-' 啤酒 ') R1 
LEFT JOIN 

(SELECT Serial R2 Serial FROM Buy list WHERE Type-' 香烟 ') R2 

ON R1.R1 Serial-R2.R2 Serial; 


SELECT R2.R2 COUNT/R1.R1 COUNT 
FROM 

(SELECT COUNT(*) R2 COUNT 

FROM 

TEMP 

WHERE R2 Serial IS NOT NULL) R2 
INNER JOIN 

(SELECT COUNT(*) R1 COUNT 

FROM 

TEMP) R1 

ON 1-1; 


简单 解释 一 下 ， 前 面 的 部 分 是 建造 一 个 只 有 两 列 的 数据 表 ， 第 一 列 RT 是 所 有 有 啤酒 的 
Serial， 第 二 列 R2 是 所 有 有 香烟 的 Serial，LEFT JOIN 后 会 得 到 一 个 R2 有 可 能 产生 NULL 
的 数据 视图 。 第 二 个 SQL 里 前 半 部 分 的 R2.R2 COUNT 是 为 了 求 出 有 啤酒 且 有 香烟 的 
Serial 数量 ， 后 半 部 分 的 R1.R1_COUNT 是 为 了 求 出 所 有 含有 啤酒 的 Serial 数量 。 两 者 相 除 
得 到 置信 和 度 。 

按照 定义 一 步 一 步 去 求 看 上 去 非常 哪 叶 ， 有 兴趣 的 读者 可 以 学 试 优 化 SQL 的 写法 。 

在 这 里 请 注意 ， 在 生活 中 各 超市 各 卖场 的 购物 篮 分 析 场 景 里 ， 支 持 度 和 置信 度 都 远 没 
有 上 述 例子 这 人 么 高 。 很 大 数量 的 支持 度 和 置信 度 可 能 都 具有 百 分 之 零点 几 或 者 百 分 之 零 点 
零 几 。 现 在 再 来 回答 刚刚 的 那个 问题 “支持 度 和 置信 和 度 多 高 才 算 高 呢 ?” 在 比较 成 熟 的 行业 ， 
或 者 有 行业 专家 可 以 请 教 的 时 候 ， 可 以 寻求 行业 专家 的 帮助 ， 让 他 们 设置 一 个 合适 的 值 。 
如 果实 在 没有 行业 专家 可 以 咨询 ， 可 以 尝试 在 所 有 商品 中 找 出 所 有 的 模式 ， 会 发 现 有 一 些 
模式 的 支持 度 和 置信 和 度 同 时 都 比 其 他 高 很 多 ， 这 时 可 以 考虑 用 所 有 模式 的 支持 度 的 平均 值 
和 置信 度 的 平均 值 作 为 参考 ， 适 当 提 高 一 些 作为 阔 值 做 过 滤 。 这 样 过 滤 下 来 的 模式 就 可 以 
作为 频繁 模式 进行 进一步 研究 。 

如 果 单 纯 支 持 度 高 或 者 置信 度 高 能 否 直接 被 认为 是 频繁 模式 呢 ? 

如 果 支 持 度 高 置信 度 低 ， 说 明 这 两 种 情况 确实 同时 出 现 ， 但 是 “转化 率 ” 可 能 比较 低 。 
而 如 果 支 持 度 比较 低 ， 但 是 转化 率 比 较 高 ， 说 明 这 种 模式 在 所 有 的 模式 里 很 平常 ， 甚 至 可 
能 不 能 算 “ 频 繁 ”。 所 以 基于 这 样 的 原因 ， 通 常 还 是 会 选择 支持 度 和 置信 和 度 都 高 于 阔 值 的 门 
限 的 模式 作为 频繁 模式 。 
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11.1.3 经典 的 Apriori 算法 

刚才 讲 过 ， 找 出 频繁 项 集 实际 是 找 出 同时 满足 最 小 支持 度 和 最 小 置信 度 的 模式 。 在 
Apriori 算法 的 观点 中 ， 这 个 求解 过 程 要 分 以 下 几 个 步骤 。 

步骤 1: 先 设 置 一 个 最 小 支持 度 作 为 闽 值 门限 值 进行 扫描 ， 因 为 对 同时 过 滤 最 小 支持 度 
和 最 小 置信 度 这 两 个 操作 来 说 ， 最 小 支持 度 的 查找 更 为 简单 一 些 。 假 设 设置 的 最 小 支持 度 
为 40% (也 可 以 尝试 设置 为 其 他 值 )。 

步骤 2. 扫描 所 有 满足 最 小 支持 度 的 单 品 。 这 个 步 又 的 逻辑 很 简单 ， 假 设 有 一 个 单 品 和 
另 一 个 单 品 组 合 的 模式 满足 最 小 支持 度 40%， 那 该 单 品 首先 必须 在 所 有 购买 记录 中 出 现 的 
概率 大 于 等 于 40% 才 有 可 能 ， 这 是 一 个 必要 条 件 。 所 以 扫描 所 有 满足 最 小 支持 度 的 单 品 ， 
找 出 大 于 等 于 40% 的 。 

在 本 例 中 ， 单 品 支持 度 ， 如 表 11-2 所 示 。 

表 11-2 单 品 支 持 度 






























单 品 类 别 (Type) 支持 度 (Support) 支持 度 (Support) 

啤酒 奶 糖 20% 
香烟 食盐 20% 
白菜 冷冻 鸡肉 20% 
鸡蛋 一 次 性 酒杯 20% 
酸奶 20% 
卫生 纸 20% 
红酒 20% 
巧克力 糖 20% 
牙刷 








过 滤 出 候选 单 品 ， 即 满足 最 小 支持 度 40% 的 单 品 ， 如 表 11-3 所 示 。 
表 11-3 ”支持 度 大 于 等 于 40% 的 单 品 


支持 度 (Support) 单 品类 别 (Type) 


40% 卫生 纸 
60% | 

在 这 个 过 程 中 可 以 发 现 ， 大 量 小 于 40% 的 单 品 已 经 被 过 滤 掉 了 ， 这 个 过 程 在 算法 中 叫 
剪 枝 。 再 逐 级 组 合 查找 模式 时 ， 有 很 多 的 单 品 可 以 完全 置之不理 了 。“ 前 枝 法 ”是 算法 科学 
中 一 个 比较 重要 的 思路 ， 在 很 多 算法 中 有 广泛 的 应 用 ， 即 利用 数学 特性 或 一 些 其 他 技巧 过 
滤 掉 那些 没 必要 计算 的 情况 ， 用 来 降低 算法 的 时 间 复 杂 度 。 

步骤 3: 查找 满足 条 件 的 2 项 模式 。 根 据 已 经 过 滤 出 的 单 品 ， 组 合 一 下 看 候选 的 2 项 模 
式 有 哪些 ， 然 后 在 前 面 的 数据 里 具体 比 对 一 下 ， 是 否 存 在 以 及 看 有 几 个 。 

啤酒 和 香烟 ， 出 现 过 2 次 ，2/5=40%。 


支持 度 (Support) 









单 品类 别 (Type) 















酸奶 
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啤酒 和 酸奶 ， 出 现 过 1 次 ，1/5=20%。 
得 到 表 11-4 (候选 的 2 项 模式 )。 
表 11-4 满足 条 件 的 2 项 模式 
2 项 模式 (Type, Type) 支持 度 (Support) 2 项 模式 (Type, Type) 
啤酒 ， 和 香烟 40% F, PER 
啤酒 ， 酸 奶 | 20% 香烟 ， 巧 克 力 精 


支持 度 (Support) 
20% 



















































































啤酒 ， 卫 生 纸 20% RI, PER 20% 
啤酒 ， 巧 克 力 糖 0% 酸奶 ,巧克力 糖 40% 
香烟 ， 酸 奶 40% 了 卫生纸， 巧克力 糖 0% 














在 所 有 已 经 渡 出 的 2 项 模式 中 ， 找 出 满足 最 小 支持 度 的 2 项 模式 KA A E do] e 





























持 度 为 40% 的 2 项 模式 )， 如 表 11-5 所 示 。 表 11-5 满足 最 小 支持 度 的 2 项 模式 
目前 只 剩 下 3 个 2 项 模式 了 。 2 项 模式 (Type，Type) 支持 度 (Support) 
步骤 4 : 查找 满足 条 件 的 3 项 模式 。 这 啤酒 ， 香 烟 40% 

MATER 3 RU. EEEE R) p e TU. news 4076 

单 品 是 有 可 能 的 。 假 设 有 一 个 单 品 和 另外 两 EE LEN ees 

个 单 品 组 合 的 模式 满足 最 小 支持 度 4096, JE adi an 

么 这 两 个 单 品 组 合 而 成 的 2 项 模式 同样 必须 2 项 模式 (Type, Type) 支持 度 (Support) 

满足 支持 度 40%。 啤酒 ， 香 烟 40% 





40% 





只 剩 下 表 11-5 中 的 啤酒 ， 香 烟 ， 酸 奶 ， TUN. MUR 





巧克力 糖 这 4 个 单 品 了 。 mn mM S 
候选 的 2 项 模式 如 表 11-6 所 示 。 表 11-7 ”候选 的 3 项 模式 




















和 前 面 一 样 做 一 个 稍 卡 儿 乘 积 ， 候选 的 3 项 模式 (Type, Type, Type) | 支持 度 (Support) 
3 项 模式 如 表 11-7 所 示 。 啤酒 ， 香 烟 ， 酸 奶 20% 


观察 发 现 ， 到 目前 为 止 ， 所 有 候选 的 3 啤酒 ， 香 烟 ， 巧 克 力 糖 0% 


项 模式 都 “阵亡 ”了 ， 全 都 不 满足 40% ROT]  —— 2. Tan 
限 要 求 。OK， 那 就 结束 ， 算 到 这 里 为 止 ， 因 为 我 们 也 不 可 能 找到 满足 条 件 的 3 项 、4 项 以 
及 以 后 任何 多 种 符合 条 件 的 频繁 模式 了 。 如 果 大 家 对 这 个 算法 的 学 术 性 表达 感 兴趣 ， 可 以 
阅读 《数据 挖掘 概念 与 技术 ( 原 书 第 3 版 )》( Jiawei Han, Micheline Kamber, Jian Pei 4# ) 
的 第 161 页 到 164 页 。 

回 过 头 来 介绍 上 述 稍 卡 儿 积 是 怎么 做 的 。 如 果 没 学 过 笛 卡 儿 积 的 朋友 请 往 下 看 ， 学 过 
的 请 自动 跳 过 。 

我 们 从 1 项 CH) 到 2 项 的 时 候 是 怎么 做 的 呢 ? 

先 从 所 有 1 项 中 罗列 出 所 有 的 单 品 : 

1 项 集合 = COH, FW, R, TAK, TAYR) 
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2 项 集合 = 1 项 集合 X1 项 集合 
注意 : 笛 卡 儿 积 就 是 用 x 号 两 边 的 两 个 集合 中 的 元 素 去 做 一 对 一 的 循环 匹配 ， 匹 配 结 
果 列 表 就 是 笛 卡 儿 积 的 乘积 (结果 )。 
2 项 集合 = 1 项 集合 X1 项 集合 
=( 啤 酒 ， 香 烟 ， 酸 奶 ， LRK, GAIR) X CE, FW, RP, 卫生纸， 巧 
克 力 糖 ) 
=(( 啤 酒 ， 啤 酒 ), (啤酒 ， 香 烟 ), CHH, RA), CES, TR), 
(啤酒 ， 巧 克 力 糖 ),( 香 烟 ， 啤 酒 ), (EW, EW), (FW, R), (香烟 ， TA), 
(EWE, TEIE) (Ra, $W), (RA, FW), (RA, RI), 
(R, TER) (E30, 09 35 7] 3E), (卫生 纸 ， 啤 酒 ), (LAR, FH), 
(TK, RH), (LER, 卫生 纸 ), (TR, 0835218), OAIR, W), 
(53,21 RE, EW), CS 36218, RW) CAIR, TER), GAUR, Yo OIL 
从 标准 的 笛 卡 儿 乘 积 中 ,得 到 了 上 述 25 个 2 项 模式 。 但 是 并 非 所 有 的 结果 都 有 意义 ， 
(啤酒 ， 啤 酒 ) 这 样 的 结果 虽然 在 笛 卡 儿 乘 积 上 是 有 意义 的 ， 但 是 在 业务 解释 中 是 没有 意义 
的 ， 因 为 谁 都 不 会 去 研究 买 了 “啤酒 ”又 买 了 “啤酒 ”的 情况 。 此 外 ,，( 啤 酒 ， 香 烟 ) 和 CÓ 
烟 ， 啤 酒 ) 只 需要 保留 一 个 即 可 ， 因 为 组 合 不 关心 方向 问题 。 这 样 就 留 下 了 候选 的 2 项 集合 : 
(( 啤 酒 ， 香 烟 )，( 啤 酒 ， 酸 奶 )，( 啤 酒 ， 卫 生 纸 )，( 啤 酒 ， 巧 克 力 糖 )， 
(香烟 ， 酸 奶 )，( 香 烟 ， 卫 生 纸 )，( 香 烟 ， 巧 克 力 糖 )，( 酸 奶 ， 卫 生 纸 )， 
(酸奶 ， 巧 克 力 糖 )，( 卫 生 纸 ， 巧 克 力 糖 )) 
一 共 10 个 。 
最 后 这 个 3 项 集合 的 算法 和 2 项 的 算法 略 显 不 同 ， 但 是 本 质 是 一 样 的 : 
3 项 集合 = 2 项 集合 X2 项 集合 =2 项 集合 X1 项 集合 X1 项 集合 
=(( 啤 酒 ， 香烟), (啤酒 ， 酸奶), (啤酒 卫生纸), CM, TEIR), 
(EH, RA), (FW, 卫生纸), (EW, TEIR) (酸奶 ， 卫 生 纸 )， 
(酸奶 ,巧克力 糖 ),( 了 卫生纸， 巧克力 糖 )) 
x (CH, F), (啤酒 ， 酸 奶 ),( 啤 酒 ， 卫生 纸 ), (啤酒 ,巧克力 糖 )， 
(香烟 ， 酸 奶 ),( 香 烟 ， THE) (香烟 ,巧克力 糖 ), RA, TA), 
(酸奶 ,巧克力 糖 ), (TRK, 巧克力 糖 )) 
= (啤酒 ， 香 烟 ) X (啤酒 ， 香 烟 )， 
(啤酒 ， 香 烟 ) x CHH, RH), 
(啤酒 ， 香 烟 ) x (啤酒 ， 卫 生 纸 )，… 
=( 啤 酒 ， 香烟 ,啤酒 ), (啤酒 ， 香 烟 ， 香 烟 ), (啤酒 ， 香 烟 ， 啤 酒 ),( 啤 
酒 ， 香 烟 ， 酸 奶 )，… 
这 种 方式 还 是 写成 笛 卡 儿 乘积 更 容易 让 人 接受 ， 展 开 后 表述 的 内 容 太 多 。 
4 项 集合 以 此 类 推 。 
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这 样 实际 上 求 出 的 是 所 有 的 满足 支持 度 和 置信 度 的 频繁 项 集 ，2 项 、3 项 …… 一 直到 和 
项 ， 只 要 它们 满足 设置 的 支持 度 和 置信 度 ， 就 都 能 被 计算 出 来 。 


11.1.4 ” 求 出 所 有 频繁 模式 


刚刚 的 例子 里 写 了 两 段 SQL 语句 ， 主 要 是 为 了 验算 “啤酒 => 香烟 ”的 支持 度 和 置信 
度 。 剩 下 的 整个 算法 实际 是 使 用 了 SQL 语言 进行 完整 支持 度 和 置信 和 度 的 计算 算法 的 实现 。 

如 果 要 计算 所 有 模式 的 支持 度 和 置信 度 ， 显 然 是 不 能 用 这 样 的 方式 的 ， 确 实 不 会 列 出 
很 多 的 一 个 一 个 的 单 品 ， 然 后 一 个 一 个 地 代入 去 求 它们 的 支持 度 。 可 以 试 着 用 其 他 的 SQL 
语句 来 求 出 所 有 模式 的 支持 度 和 置信 度 ， 其 实 并 不 难 。 

首先 希望 有 一 个 表 能 够 构造 出 穷 举 所 有 模式 的 方式 ， 代 码 如 下 : 

CREATE TABLE PATTERNS (Serial VARCHAR(64), Typel VARCHAR(64), Type2 VARCHAR(64)) AS 

SELECT R1.Serial Serial, R1.Typel Typel, R2.Type2 Type2 

FROM 

(SELECT Serial, Type Typel FROM Buy list) R1 

INNER JOIN 


(SELECT Serial, Type Type2 FROM Buy list) R2 
ON R1.Serial-R2.Serial AND R1.Typel«»R2.Type2; 


现在 得 到 一 个 PATTERNS 表 CI 11-8). 了 ， 这 个 表 有 两 列 ， 里 面 是 所 有 的 Type 组 合 的 
结果 ， 而 且 绝 对 不 包含 模式 的 两 个 元 素 为 同一 元 素 的 情况 。 这 个 表 构 造 完毕 后 会 得 到 一 个 
Serial, Typel, Type2 的 穷 举 组 合 ， 穷 举 了 在 所 有 购买 记录 中 的 各 次 购买 清单 里 的 组 合 ， 而 
且 正 反 向 组 合 各 存在 一 次 。 以 Serial 为 0001 为 例 : 


表 11-8 PATTERNS X 
单 品 类 别 (Type1 ) 


单 品类 别 (Type2 ) 
啤酒 
啤酒 


啤酒 

























单 品 类 别 (Type1 ) 


流水 号 (Serial) 流水 号 (Serial) 单 品 类 别 ( Type2 ) 




















这 里 的 Typel 和 Type2 是 有 方向 的 ， 指 代 的 是 Typel=>Type2， 代 码 如 下 : 


SELECT COUNT(*) Support, Typel, Type2 
FROM 

PATTERNS 

GROUP BY Typel, Type2; 


也 许 有 的 读者 朋友 会 认为 COUNTE) 需要 除 以 2， 其 实 是 没有 必要 的 ， 因 为 这 里 认为 
Typel 和 Type2 是 有 方向 的 ， 也 就 是 说 Typel 和 Type2 分 别 代表 啤酒 和 香烟 ， 和 分 别 代表 
香烟 和 啤酒 是 两 种 不 同 的 情况 。 
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SELECT COUNT(DISTINCT Serial) TRANSACTION COUNT 
FROM 
PATTERNS; 


用 每 行 的 Support 除 以 TRANSACTION_COUNT， 就 能 得 到 所 有 单 品 对 应 Typel=>Type2 
的 支持 度 了 。 两 个 SQL 语句 可 以 写 在 一 起 ， 就 不 需要 两 次 请 求 数据 库 了 。 如 果 要 用 阔 值 门 
限 过 滤 支 持 度 ， 可 以 用 WHERE 语句 进行 谓词 限制 。 

求 置 信 度 相对 麻烦 一 些 ， 但 是 也 不 难 。 思 路 是 ， 求 Typel=>Type2 的 置信 度 ， 即 用 同时 
有 Type2 和 Typel 的 购买 记录 数 除 以 所 有 含有 Typel 的 购买 记录 数 。 

CREATE TABLE TYPE COUNT VIEW(Type count INT, Type VARCHAR(64)) AS 

SELECT COUNT(*) Type count, Type 

FROM 


Buy list 
GROUP BY Type; 


临时 表 为 TYPE COUNT VIEW, 1 HJ E f Type 和 它 出 现 的 数量 Type count 两 个 数 
据 列 。 


SELECT R1.Typel, R1.Type2, R1.Type count/TYPE COUNT VIEW.Type count Confidence 
FROM 

(SELECT COUNT(*) Type count, Typel, Type2 

FROM 

PATTERNS 

GROUP BY Typel, Type2) R1 

INNER JOIN 

TYPE COUNT VIEW 

ON R1.Typel-TYPE COUNT VIEW.Type; 


最 后 得 到 R1.Typel、R1.Type2、Confidence， 每 一 条 记录 的 这 3 个 字段 的 含义 就 是 
Typel=>Type2 以 及 它们 的 置信 度 Confidences 

TYPE COUNT VIEW 构造 的 是 每 个 单 品 出 现 的 次 数 。 

RI 是 所 有 Typel=>Type2 的 组 合 ， 每 行 记 录 表 示 Typel=>Type2 出 现 的 次 数 ， 正 反 两 
个 方向 都 有 ， 也 就 是 啤酒 — 香烟 ， 香 烟 => 啤酒 分 别 进行 了 统计 。 

注意 连接 条 件 PARTTERNS.Typel= TYPE COUNT _ VIEW.Type， 这 个 构造 出 来 的 方向 
性 实际 上 只 对 Typel=>Type2 敏感 。 最 后 得 到 的 记录 结果 就 是 想 要 的 结果 。 记 得 在 最 后 这 
Bt SQL 语句 上 加 上 对 于 置信 和 度 Confidence 的 过 滤 条 件 限 制 ， 过 滤 出 那些 满足 最 小 置信 度 的 
模式 。 

这 里 需要 强调 的 是 ， 刚 刚 用 SQL 求解 的 过 程 是 一 个 对 于 最 小 频繁 2 项 集 的 求解 过 程 ， 
也 就 是 求解 那些 “ 哪 两 个 ” 单 品 的 组 合 的 支持 度 和 置信 度 能 够 满足 要 求 。Apriori 算法 的 求 
解 过 程 是 求解 所 有 最 小 频繁 项 集 ，2 项 、3 项 …… 一 直到 N 项 ， 只 要 它们 满足 设置 的 支持 度 
和 置信 和 度 ， 这 就 是 区 别 。 
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11.2 关联 分 析 与 相关 性 分 析 


在 使 用 Apriori 算法 计算 出 有 较 高 支持 度 和 较 高 置信 和 度 的 频繁 模式 之 后 ， 要 对 这 些 频繁 
模式 进行 一 些 杆 别 或 者 分 析 。 但 是 ， 是 不 是 所 有 的 频繁 模式 都 是 有 趣 的 ? 

关于 有 趣 模式 ， 在 第 10 章 做 过 一 些 讨 论 。 如 果 一 个 模式 具备 以 下 特点 ， 则 它 是 有 趣 的 
(Interesting) o 

(1) 易于 被 人 理解 。 

(2) 在 某 种 确信 和 度 上 ， 对 于 新 的 或 检验 数据 是 有 效 的 。 

(3) 是 潜在 有 用 的 。 

(4) 是 新 颖 的 。 

这 些 特点 带 有 很 浓郁 的 主观 色彩 ， 如 新 颖 、 是 否 有 用 ， 这 些 观 点 本 身 就 是 因 人 而 异 的 ， 
因此 所 有 找到 的 频繁 模式 未 必 都 是 有 趣 模式 。 

Apriori 能 够 过 滤 出 关联 度 较 高 的 模式 ， 但 是 还 不 能 对 相关 性 做 出 解释 。 

这 里 需要 引入 一 个 有 关 相 关 规 则 的 分 析 。 

在 前 面 见 过 这 样 一 种 记述 方式 ， 啤 洒 => 香烟 [support-4096; confidence-10096], tE mÈ 
是 Typel=>Type2 [ 支持 度 ， 置 信和 度 ] 的 这 种 对 频繁 项 集 (关联 规则 ) 的 记述 方式 ， 现 在 增补 
一 种 新 的 方式 ，Type1=>Type2[ 支持 度 ， 置 信 度 ， 关 联 度 ]， 其 中 关联 度 记 作 correlations 

提升 度 (Lift) 是 一 种 简单 的 关联 度 度量 ， 也 是 一 种 比较 容易 实现 的 统计 方法 。 
P(B|4) 
P(B) 





Lift( 4, B) = 














上 式 与 朴素 贝 叶 斯 公式 类 似 。 等 号 左边 是 4 和 B 的 相关 性 定义 ， 右 边 分 子 是 发 生 4 的 
情况 下 发 生 8 的 概率 ， 分 母 是 发 生 B 的 概率 。 

当 相 关 性 是 1 时 ，P(B|4) 与 P(B) 相等 ， 也 就 是 说 在 全 样本 空间 内 ，B 发 生 的 概率 和 在 
AE A 的 情况 下 发 生 B 的 概率 是 一 样 的 ， 那么 它们 就 是 毫 无 关系 。 

当 相 关 性 大 于 1 时 ，P(B|4) 大 于 P(3)， 也 就 是 说 在 全 样本 空间 内 ， 发 生 4 的 情况 下 发 
^E B 的 概率 要 比 单独 统计 B 发 生 的 概率 要 大 ， 那 么 B 和 4 是正 相关 的 。 换 句 话 说 ，4 的 发 
生 促 进 了 B 的 发 生 。 

相反 ， 当 相关 性 小 于 1 时 ，P(8|4) 小 于 P(8)， 也 就 是 说 在 全 样本 空间 内 ， 发 生 4 的 情 
况 下 发 生 B 的 概率 要 比 单独 统计 B 发 生 的 概率 要 小 ， 那 么 B 和 4 是 负 相 关 的 。 换 句 话说 ， 
A 的 发 生 抑制 了 B 的 发 生 。 

还 是 以 刚刚 做 好 的 PATTERNS 表 为 例 ，SQL 代码 如 下 : 








SELECT FRACTION.Typel,FRACTION.Type2,FRACTION.PBA/NUMERATOR.PBPossibility 
FROM 


( 
SELECT R1.Support/R2.TRANSACTION COUNT PBA, R1.Typel, RlI.Type2 


FROM 
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SELECT COUNT(*) Support, Typel, Type2 
FROM 
PATTERNS 
GROUP BY Typel, Type2 
) R} 
INNER JOIN 
( 


SELECT COUNT(DISTINCT Serial) TRANSACTION COUNT, 


FROM 
PATTERNS 
GROUP BY Typel 
y R2 
ON R1.Typel-R2.Typel 
) FRACTION 
LEFT OUTER JOIN 
( 
SELECT R3.counts/R4.TRANSACTION COUNT PB, Type2 
FROM 
( 
SELECT COUNT(DISTINCT Serial) counts, Type2 
FROM PATTERNS 
GROUP BY Type2 
) R3 
INNER JOIN 
( 
SELECT COUNT(DISTINCT Serial) TRANSACTION COUNT 
FROM 
PATTERNS 
) R4 
ON 1-1 
) NUMERATOR 
ON FRACTION. Type2-NUMERATOR. Type2; 


Typel 
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其 中 Possibility 就 是 要 求 的 每 个 单 品 Type 对 应 的 要 求 的 提升 度 ，Typel 和 Type2 分 别 


对 应 公式 中 的 4 和 8B 两 个 项 目 。 条件 概率 P(B|4) 的 求法 和 求 支 持 度 的 思 
不 再 费 述 。 


是 一 样 的 ， 这 里 


可 以 发 现在 这 个 求 相关 性 分 析 的 过 程 中 没有 新 的 内 容 ， 仍 然 是 对 支持 度 的 求解 ， 只 是 


11.3 稀有 模式 和 负 模 式 


要 对 单 品 独立 的 购买 行为 也 要 求解 ， 看 看 这 个 支持 度 起 的 作用 是 促进 购买 概率 上 升 还 是 下 
KE, Dui. 


在 关联 分 析 的 过 程 中 ， 还 有 一 类 研究 和 前 面 研究 的 内 容 不 同 ， 前 面 研究 的 都 是 频繁 模 
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所 谓 稀 有 模式 ， 是 支持 度 远 低 于 设 定 的 支持 度 的 模式 。 这 里 请 注意 一 点 ， 在 前 面 研究 
频繁 模式 设 定 支持 度 时 ,设置 的 这 个 门限 闵 值 要 么 是 行业 内 的 一 个 经 验 值 要 么 是 挑选 的 大 
量 支持 度 统计 的 平均 值 ， 大 于 这 个 数字 ， 就 认为 是 一 个 频繁 模式 。 然 而 并 不 是 小 于 这 个 数 
字 就 是 稀有 模式 ， 而 是 要 设置 一 个 比 这 个 数字 小 得 多 的 值 作为 过 滤 条 件 ， 比 这 个 值 小 很 多 
的 值 才 是 稀有 模式 。 至 于 设置 为 多 少 ， 很 难 用 一 个 具体 的 数字 划分 ， 在 实际 生产 生活 中 可 
以 考虑 用 支持 度 倒 排序 的 功能 去 找 那些 支持 度 极 低 的 模式 。 

而 对 于 负 相 关 ， 从 名 称 来 考虑 ， 基 本 可 以 认为 ， 一 种 事物 的 增加 同时 就 对 应 另 一 种 事 
物 的 减少 ， 这 种 直观 感觉 下 的 两 种 事物 就 是 负 相关 的 。 这 样 的 事物 在 日 常生 活 中 同样 会 遇 
到 很 多 ， 例 如 ， 这 个 月 购买 数码 产品 的 预算 一 共 是 3 000 元 ,那么 买 了 数码 照相 机 ， 购 买 
PS4 游戏 机 的 预算 就 不 足 ， 导 致 不 能 购买 PS4 游戏 机 ; 相反 ， 如 果 买 了 PS4 游戏 机 ， 则 很 
可 能 由 于 预算 不 足 不 能 购买 数码 照相 机 。 在 大 量 的 购物 宏观 统计 中 ， 这 就 不 是 观察 一 个 人 
的 行为 了 ， 而 是 观察 很 多 人 在 大 量 购买 行为 中 出 现 的 这 种 取舍 性 的 负 相 关 行 为 。 

一 般 来 说 ， 如 果 久 和 YY 都 是 频繁 的 ,但 是 很 少 或 者 不 一 起 出 现 ， 那 么 就 说 X 和 YY 是 
HXH, XA Y 组 成 的 模式 是 负 相 关 模 式 。 如 果 义 和 YY 组 成 的 模式 支持 度 远 远 小 于 义 的 
支持 度 与 Y 的 支持 度 的 乘积 ， 那 么 就 说 久 和 YY 是 强 负 相关 的 。 

要 计算 是 否 为 强 负 相关 模式 ， 还 是 要 在 整个 样本 空间 里 找到 这 种 此 消 彼 长 ， 至 少 是 很 
少 一 起 出 现 的 频繁 模式 。 在 实际 生产 中 ,挖掘 负 相关 模式 的 场景 还 是 很 多 的 。 如 在 购物 复 
分 析 中 ， 当 发 现 有 一 些 物品 X 和 YY 都 比较 频繁 , 但 是 却 通 常 只 出 现 其 中 一 个 时 ， 可 以 来 
进行 统计 分 析 ， 看 看 这 些 负 相关 的 物品 是 否 满足 了 人 们 在 某 一 大 领域 的 需求 ， 进 而 估算 人 
们 在 这 个 领域 的 预算 规模 和 购物 规律 。 在 病症 治疗 或 者 基因 分 析 中 同样 可 以 用 负 模 式 挖掘 
的 方法 来 发 现 那些 有 关联 的 疾病 或 抗体 。 例 如 ， 在 得 过 A 疾病 的 患者 中 ， 需 患 B 疾病 的 病 
人 比例 比 普通 人 小 很 多 ,那么 就 可 以 推断 很 可 能 A 疾病 会 让 病人 同时 具备 抵抗 B 疾病 的 
抗体 。 





11.4 小结 


关联 分 析 是 数据 挖掘 中 比较 重要 的 一 环 ， 尤 其 是 关于 频繁 项 集 的 分 析 问 题 。 

在 计算 机 辅助 进行 的 数据 处 理 中 ， 所 有 的 频繁 项 集 的 问题 都 能 用 基于 关系 型 数据 库 的 
统计 方法 进行 分 析 ， 如 果 规 模 巨 大 则 可 以 用 分 布 式 关 系 型 数据 库 或 者 抽样 数据 进行 分 析 。 

关联 分 析 在 农业 、 军 事 、 刑 侦 、 医 学 等 很 多 领域 都 有 着 广泛 的 应 用 ， 是 帮助 人 们 认识 
事物 之 间 的 关联 关系 的 重要 手段 ， 在 建立 专家 系统 或 者 知识 库 的 过 程 中 ， 有 着 不 可 替代 的 
作用 ， 请 读者 多 练习 与 思考 。 
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“用 户 画 像 ” 这 个 说 法 现在 在 数据 分 析 和 数据 挖掘 领域 很 流行 。 

这 个 说 法 比较 形象 ， 它 是 指 在 数据 库 或 数据 仓库 里 使 用 用 户 信息 的 记录 ， 对 这 些 信 息 
逐渐 丰富 以 后 完成 对 用 户 的 描述 。 整 个 描述 的 过 程 就 像 给 用 户 画 像 一 样 ， 一 笔 一 笔 照 着 模 
特 画 ， 最 后 完成 对 模特 样子 的 描述 。 

希望 对 用 户 做 “画像 ”的 目的 也 是 比较 明确 的 ， 就 是 希望 通过 某 些 手段 对 用 户 做 甄别 ， 
把 他 们 分 成 彼此 相同 或 不 同 的 人 群 或 个 体 ， 进 而 区 别 化 提 
供 服 务 和 进行 观察 分 析 一 一 这 通常 是 做 用 户 画 像 的 核心 目 
的 所 在 。 

在 数据 库 或 者 数据 仓库 中 怎么 对 用 户 进 行 画 像 呢 ?最 
常用 的 办 法 是 用 标签 来 对 用 户 进 行 画像 一 一 描述 。 





12.1 标签 


标签 的 英文 常用 的 有 Tag 和 Label， 怎 么 用 词 不 重要 ， 
关键 看 标签 怎么 用 (图 12-1). 

这 些 标签 是 从 哪里 来 的 ?其实 是 从 很 多 收集 到 的 和 用 
户 相 关 的 线索 中 来 的 。 什 么 是 线索 ? 就 是 用 户 以 他 的 身份 
标识 所 留 下 的 各 种 行为 的 记录 ， 这 些 记 录 基 本 是 从 各 种 各 
样 的 日 志 中 来 。 图 12-1 标签 
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12.2 画像 的 方法 

打 标 签 这 件 事 情 在 我 们 发 明 “ 用 户 画 像 ”这 个 词 之 前 就 已 经 有 了 。 

例如 ， 有 很 多 人 性 格 鲜明 ， 当 大 家 提 到 他 的 名 字 时 ， 脑 海里 很 容易 联想 起 一 些 形象 ， 
或 者 一 些 词汇 。 如 一 说 起 医生 ， 有 的 人 脑海 里 就 会 浮现 出 “白衣 天 使 ”“ 救 死 拱 伤 ”这 样 的 
词汇 ; 但 是 有 的 人 脑海 里 就 会 浮现 出 “勒索 钱财 ”“ 态 度 恶 劣 ”这 样 的 词汇 。 同 样 的 一 个 或 
一 类 对 象 在 两 个 不 同 的 人 看 来 可 能 是 完全 不 同 的 标签 内 容 ， 原 因 可 能 就 是 这 两 个 人 平时 关 
注 的 新 闻 热 点 不 一 样 或 者 经 历 不 一 样 。 又 如 听 到 会 计 这 个 职业 ， 就 会 想到 “精细 ”“ 准 确 ”， 
听 到 拳击 运动 员 就 会 联想 到 “强壮 ” “矫健 " 。 这 就 是 最 初 的 “ 打 标签 ”动作 ， 和 IT 技术 
无 关 ， 只 是 根据 自己 的 认 知 所 留 的 印象 而 已 。 

我 们 回 过 来 说 说 生产 中 用 到 的 例子 ， 先 看 看 数据 库 吧 。 








12.2.1 结构 化 标签 
其 实在 学 习 关 系 型 数据 库 时 ， 一 张 表 里 就 融入 了 这 种 “画像 ”的 方法 。 这 里 以 数据 库 
中 的 用 户 信息 登记 表 Table User 为 例 介 绍 ， 如 表 12-1 所 示 。 
表 12-1 用 户 信 息 登 记 表 























字段 名 说 明 
ID INT 用 户 注册 ID 
NAME VARCHAR(64) 用 户 姓名 
GENDER INT 性 别 
MOBILE VARCHAR(16) 手机 号 
aq TE 
EMAIL 电子 邮箱 地 址 
BIRTHDAY DATE 生日 ` 
CITY ID INT 所 在 城市 ID 
PROVINCE ID INT 所 在 省 ID 
COUNTRY ID INT 所 在 国家 ID 


K 12-1 中 记录 的 信息 其 实 本 身 就 是 用 于 描述 用 户 的 ， 它 们 都 是 画像 的 标签 。 昌 然 这 些 
信息 比较 有 限 ， 但 是 已 经 足够 对 用 户 做 一 定 程度 的 区 分 。 根 据 性 别 可 以 区 分 男女 属性 ， 根 
据 所 在 地 区 〈 国 家 ， 省 ， 市 ) 可 以 区 分 地 域 ， 根 据 生 日 可 以 区 分 年 龄 段 ， 根 据 手机 号 可 以 
区 分 手机 号 所 在 地 区 。 这 已 经 比 完全 无 法 判别 一 个 用 户 ID 的 拥有 者 具备 什么 属性 强 了 不 
用 户 形象 清晰 了 不 少 。 

但 是 不 足 之 处 我 们 很 快 就 发 现 了 ,我们 往 下 看 。 


1. 信息 的 丰富 性 
E3 Table User 表 中 的 信息 实在 是 太 有 限 了 ， 能 够 只 根据 所 在 城市 、 生 日 (年 龄 段 )、 
手机 号 (所 在 地 )、 性 别 就 把 用 户 区 分 开 吗 ? 我 们 也 不 要 过 于 悲观 。 
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如 果 你 所 处 的 行业 ， 所 提供 的 服务 是 比较 粗 儿 的 ， 那 是 否 做 这 些 区 分 恐怕 不 重要 ， 因 
为 即便 这 些 信 息 不 相同 ， 也 没有 提供 区 别 化 服务 的 余地 。 这 样 的 行业 不 胜 枚 举 ， 如 电力 行 
业 、 煤 炭 行 业 、 钢 铁 行 业 等 。 这 些 行 业 的 用 户 数量 (一 般 用 户 都 是 企业 ) 和 产品 种 类 是 相 
对 单一 的 ， 和 对 大 数据 技术 热衷 的 互联 网 行业 、 零 售 业 、 保 险 业 、 广 告 业 等 产业 大 相 径 庭 ， 
几乎 没有 可 比 性 。 所 以 用 户 画 像 对 这 类 行业 的 吸引 力 不 大 ， 这 应 该 不 难 理解 。 

如 果 你 所 处 的 行业 是 对 服务 和 用 户 体验 敏感 的 ， 那么 这 些 信息 的 价值 就 太 有 限 了 。 而 
且 从 未 来 趋势 来 看 ， 区 别 化 服务 对 传统 粗 久 型 行业 的 冲击 也 在 不 断 增 强 。 只 要 区 别 化 服务 
给 企业 带 来 的 效益 比 带 来 的 成 本 高 ， 区 别 化 服务 就 是 一 个 竞争 的 利器 。 这 也 是 很 多 公司 愿 
意 花 大 力气 想 办 法 去 做 用 户 画 像 的 比较 重要 的 原因 。 

对 于 用 户 结构 化 标签 比较 好 的 补充 是 采用 一 些 其 他 的 补充 信息 表 Table_User_Other_ 
Information 来 做 补充 描述 ， 如 表 12-2 所 示 。 

表 12-2 补充 信息 表 











字段 名 类 型 说 明 
LOGIN_FREQUENCY 每 周 登录 次 数 
LAST VIEW CATEGORY ID INT 上 次 浏览 商品 类 别 
FREQUENT BUY CATEGORY IDI 经 常 购买 的 商品 种 类 TOP1 
FREQUENT:BUY CATEGORY ID2 经 常 购买 的 商品 种 类 TOP2 
FREQUENT BUY CATEGORY ID3 经 常 购买 的 商品 种 类 TOP3 


AVERAGE MONTHLY PURCHASE DECIMAL 平均 月 消费 额 


对 于 购物 类 网 站 可 以 再 建立 类 似 Table User Other Information 的 表 来 记录 用 户 的 消费 
为 ， 这 张 表 的 记录 内 容 对 用 户 画 像 的 帮助 是 更 一 步 通 近 了 用 户 的 “真实 模样 ”， 在 对 用 户 
质 做 区 分 时 有 更 大 的 提示 作用 。 那 么 这 些 值 怎 么 来 ? 显然 是 从 各 次 的 购买 记录 中 统计 而 
来 ， 这 些 统计 的 方法 对 于 会 SQL 语言 的 开发 人 员 来 说 还 是 很 简单 的 。 
知道 了 用 户 的 性 别 、 手 机 归属 地 、 生 日 〈 年 龄 段 )、 所 在 城市 ， 以 及 登录 频繁 程度 、 经 
常 购买 的 商品 种 类 、 平 均 消 费 额度 等 信息 ， 是 不 是 已 经 比 “ 未 画像 ”之 前 有 了 更 清晰 的 样 
貌 呢 ?那么 还 能 把 用 户 画 得 更 清晰 一 些 吗 ? 还 是 可 以 的 。 
如 果 希 望 把 画像 做 到 极致 ， 还 可 以 进行 更 深 一 步 的 描述 。 例 如 ， 服 装 类 Table_User_ 
Buy Clothes, ， 如 表 12-3 所 示 。 


TT 
[=] 
nn 








表 12-3 服装 类 
字段 名 | 型 ”| 说 明 
ID INT 用 户 注册 ID 
FREQUENT SIZE VARCHAR(16) 常 买 的 衣服 SIZE 大 小 
FREQUENT COLOR IDI INT 常 买 的 衣服 颜色 TOP1 
FREQUENT COLOR ID2 INT 常 买 的 衣服 颜色 TOP2 
FREQUENT COLOR ID3 INT 常 买 的 衣服 颜色 TOP3 
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( 续 ) 













常 买 的 衣服 风格 TOP1 
常 买 的 衣服 风格 TOP2 
常 买 的 衣服 风格 TOP3 


FREQUENT STYLE ID1 
FREQUENT STYLE ID2 
FREQUENT STYLE ID3 















这 里 可 以 继续 增补 类 似 Table User Buy Clothes 的 细 类 描述 ,一 个 用 户 购 买 衣服 ， 那 
么 他 “喜欢 ”( 至 少 是 经 常 ) 买 的 颜色 是 什么 , 红色、 黄色 、 蓝 色 还 是 绿色 ? 经 常 买 的 衣服 
风格 是 什么 ? 日 版 、 昔 版 、 英 版 还 是 中 国 版 ? 不 只 是 衣服 ， 针 对 每 个 细 类 都 可 以 做 这 种 描 
述 ， 而 有 的 用 户 肯 定 是 某 些 东西 买 得 多 而 其 他 东西 几乎 不 买 。 

这 类 的 统计 同样 可 以 利用 SQL 语言 轻松 完成 。 

这 些 表 的 字段 都 是 标签 ， 而 且 是 结构 化 的 标签 ， 这 种 结构 化 的 标签 很 好 用 ， 不 论 是 做 
推荐 算法 ， 还 是 细 类 分 类 的 个 性 化 研究 ， 都 非常 方便 。 

2. 信息 的 正确 性 

关于 信息 正确 性 的 问题 在 Table User 表 中 就 比较 凸显 。 例 如 ， 所 在 地 区 填写 是 不 是 准 
确 ，QQ 号 填写 是 不 是 准确 。 

对 于 所 有 用 户 自己 填写 的 信息 来 说 ， 有 的 可 以 靠 验 证 信息 来 进行 确认 ， 如 EMAIL 和 
MOBILE， 这 些 信息 可 以 通过 信息 回执 码 的 方式 来 进行 确认 是 否 为 有 效 。 所 在 地 这 种 字段 
可 以 考虑 用 外 带 的 IP 库 来 进行 辅助 确认 ,但 是 P 库 也 不 是 很 准确 ， 至 少 实时 性 也 是 有 限 
的 ， 所 以 也 会 有 对 照 查询 结果 同样 不 准确 的 情况 。 

对 于 无 法 清晰 界定 填写 信息 是 否 准确 无 误 的 情况 不 要 悲观 ， 客 观 世 界 本 身 就 是 在 不 停 
变化 的 ， 只 是 一 个 动态 中 的 瞬间 平衡 状态 而 已 ， 完 美的 准确 本 身 就 是 一 种 理想 ， 只 要 在 一 
定 合 理 的 范围 内 逼近 准确 就 够 了 。 

与 其 一 味 地 纠结 用 户 填 写 的 信息 是 不 是 准确 ， 不 如 把 目光 和 精力 更 多 地 投入 到 更 “ 客 
观 ”的 数据 上 去 ， 如 购买 记录 和 浏览 记录 ， 分 析 这 些 真 实 存在 的 行为 要 比 停留 在 用 户 “ 主 
观 ” 填 写 的 一 些 数据 字段 有 意义 得 多 。 


12.2.2” 非 结构 化 标签 


1. 免费 软件 真 的 免费 吗 

除了 结构 化 的 标签 ， 还 有 很 多 互联 网 公司 对 用 户 画 像 尝试 使 用 非 结 构 化 标签 的 画像 
方法 。 

非 结构 化 的 标签 通常 不 对 标签 的 属性 进行 明确 区 分 ， 前 面 的 例子 里 的 每 个 表 的 字段 有 
确切 含义 ， 这 种 就 是 对 标签 的 含义 做 明确 的 种 类 区 分 。 

然而 互联 网 产品 本 身 的 特殊 性 造成 很 多 时 候 无 法 对 用 户 做 这 种 属性 确定 的 画像 标签 。 

举 个 最 典型 的 例子 ， 我 们 在 PC 或 者 手机 上 都 在 用 着 各 种 免费 软件 。 破 解 的 软件 就 不 提 
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了 ， 就 说 真 的 免费 软件 吧 ， 如 QQ、 暴 风 影 音 、360 安全 卫士 …… 其 中 有 不 少 免 费 软件 做 得 
还 是 相当 出 色 的 。 

公司 不 是 慈善 机 构 ， 公 司 的 收入 从 何 而 来 呢 ? 

熟悉 互联 网 经 济 模式 的 人 都 知道 ， 这 种 模式 就 是 俗称 “羊毛 出 在 猪 身 上 ”的 互联 网 经 
济 模式 一 一 处 在 上 游 的 广告 主 投资 ， 处 在 中 游 的 软件 做 载体 ， 处 在 下 游 的 用 户 做 接受 对 象 。 
广告 主 花 钱 做 广告 ， 免 费 软件 的 开发 商 进行 广告 投放 ， 而 免费 使 用 软件 的 用 户 则 必须 忍受 
或 多 或 少 让 人 抓 狂 的 广告 (图 12-2). 


网 络 广告 





图 12-2 ”网络 广告 


细 说 来 ， 这 个 行业 的 环节 不 只 有 3 个 角色 ， 而 是 4 个 角色 。 

广告 主 : 花 钱 为 自己 的 品牌 或 者 产品 做 广告 的 人 。 

媒体 : 广告 位 提供 商 ， 如 电视 台 、 网 站 、 杂 志 ， 在 刚刚 的 例子 里 ， 具 有 弹 窗 能 力 的 软 
件 都 是 媒体 。 

广告 商 : 本 质 上 就 是 中 介 ， 帮 广告 主 找 媒体 广告 位 ， 帮 媒体 找 广告 主 。 

受众 : PC 和 手机 终端 用 户 。 

这 里 的 广告 商 作用 是 很 大 的 ， 因 为 让 广告 主 直 接 面 对 每 个 免费 软件 商 去 投放 广告 显然 
对 于 他 们 来 说 成 本 过 高 了 ， 倒 不 如 交 给 这 些 对 投放 更 为 专业 的 广告 商 ， 由 他 们 根据 广告 主 
的 预算 和 投放 意愿 进行 有 效 的 投放 。 

而 广告 商 们 收取 了 大 量 的 广告 素材 (图 片 、 视 频 、 链 接 ) 和 经 费 以 后 会 怎么 做 呢 ? 如 何 
去 帮 广 告 主 采购 合适 的 广告 位 呢 ? 现在 比较 流行 的 是 使 用 RTB (Real Time Bidding， 实 时 广 
告 竞价 ) 系统 进行 广告 竞价 ， 如 图 12-3 所 示 。 

这 看 上 去 有 点 像 淘宝 的 秒杀 ， 只 是 淘宝 的 秒杀 是 店主 挂 出 有 限 的 货品 ， 在 某 一 个 具 
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体 的 时 间 开 放 ， 然 后 买 家 蜂拥 而 上 抢购 先 到 先 得 。 然 而 RTB 的 店主 是 SSP (Supply Side 
Platform ， 供 应 方 平 台 )， 也 就 是 广告 位 提供 者 ， 他 们 卖 的 是 展示 的 广告 位 ， 这 些 广告 位 通 
过 自动 竞价 的 复杂 策略 ， 最 后 决定 投放 哪 一 家 广告 商 的 广告 资源 。 抢 购 者 是 广告 主 ， 只 是 
这 个 过 程 是 广告 商 代劳 的 ， 广 告 商 帮 助 他 们 做 了 竞价 策略 并 根据 策略 进行 广告 投放 。 








图 12-3 广告 的 运作 流程 


这 种 广告 的 展示 和 点 击 收 费 是 不 一 样 的 ， 点 击 的 收费 要 比 单纯 展示 的 收费 高 很 多 。 很 
多 免费 软件 其 实 一 直 在 绞 尽 脑汁 试图 根据 用 户 的 终端 使 用 习惯 做 一 个 画像 一 一 尽管 这 个 用 





户 画 像 画 的 可 能 不 是 用 户 的 个 人 而 是 用 户 的 计算 机 。 

“暴力 弹 窗 ” 是 一 种 在 技术 手段 上 显得 毫 无 建树 的 投放 方式 ， 它 太 直 接 ， 太 暴力 ， 更 让 
人 感觉 不 爽 的 是 它 里 面 承载 的 广告 内 容 很 多 是 无 法 催化 一 次 点 击 的。 广告 在 暴力 弹 窗 上 无 
区 别 地 投放 会 TL AES i 像 在 每 次 进 到 家 门口 ， 都 能 发 现在 门口 来 了 一 张 硕 大 的 小 广告 
面 赫然 写 着 “得 了 脚气 怎么 办 ? dE x x 老 军医 ， 一 针 就 灵 。” 而 且 天 天 如 此 。 或 者 是 在 一 
个 使 用 管 BRAE, 门口 天 天 有 人 举 个 大 牌子 ， 挡 住 一 半 的 路 ， 上 面 写 着 “煤气 馈 
便宜 换 ”， 你 不 得 不 每 次 都 跟 他 说 一 句 “内 开 ， 让 我 过 去 ”图 12-4 )。 


我 们 小 区 都 是 管道 煤气 





[sese] 





3219 ^ 16 E10] 





图 12-4 AIMA 


这 两 种 方式 显然 会 让 人 觉 % 得 做 广告 的 人 欠 考 虑 ， 如 果 这 种 广告 是 按 被 用 户 看 了 多 少 次 
来 收费 的 话 ， 我 是 广告 主 主 也 肯定 不 会 找 他 们 做 广告 的 。 最 起 码 的 ， 做 这 种 广告 还 是 要 有 
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定 的 针对 性 ， 尤 其 是 这 个 换 煤 气 钠 的 ， 起 码 应 该 去 一 个 非 天 然 气管 道 的 小 区 才 会 有 点 效果 。 

2. 不 犯法 就 画 画 看 

好 在 各 种 软件 在 用 户 PC 和 手机 里 还 做 一 些 “ 画 画 看 ”的 动作 ， 画 什么 ?当然 是 给 用 户 
画像 。 

软件 在 用 户 的 PC 和 手机 里 都 能 做 什么 ? 从 技术 角度 来 看 ， 如 果 它 在 PC 或 手机 启动 后 
就 被 加 载 人 内 存 则 几乎 是 什么 都 可 以 做 的 ， 一 切 行为 都 可 以 。 还 好 ， 有 很 多 信息 安全 类 的 
软件 ， 如 金山 毒霸 、 卡 巴 斯 基 等 ， 会 监控 这 些 软件 的 行为 ， 如 果 这 些 软件 轻易 打开 本 地 的 
文件 翻 看 里 面 的 内 容 ， 或 者 记录 在 键盘 上 录入 的 信息 ,那么 动 辑 是 直接 告警 ， 严 重 的 就 会 
直接 删除 软件 内 容 。 此 外 ， 在 法 律 层 面 ， 对 用 户 敏感 信息 的 收集 以 及 对 此 产生 的 损失 ， 软 
件 的 制作 人 是 负 有 连带 责任 的 。 况 且 ， 这些 软件 本 身 在 合法 商业 领域 的 应 用 价值 的 长 远 性 
远 比 做 这 些 偷 偷 摸 摸 的 下 三 滥 扫 描 赚 钱 得 多 (图 12-5 )。 





图 12-5 画像 软件 


有 哪些 东西 是 可 以 用 来 给 一 个 PC 或 者 手机 做 画像 的 呢 ? PC 和 手机 上 所 有 带 描述 作用 的 
信息 都 可 以 。 软 件 列表 、 软 件 使 用 记录 、 浏 览 器 访问 记录 等 都 是 比较 典型 的 用 户 画 像素 材 。 

注意 这 里 有 一 个 信息 差异 化 的 问题 。 

就 用 户 画 像 本 身 来 说 ， 只 是 在 做 用 户 的 描述 ， 如 果 每 台 PC 的 软件 列表 、 软 件 使 用 记 
录 、 浏 览 器 访问 记录 都 一 样 ， 那 么 用 户 画 像 还 是 可 以 做 的 ， 只 是 “ 画 ” 出 来 的 用 户 之 间 “长 
得 ”差不多 。 

可 以 尝试 把 PC 上 的 软件 列表 、 软 件 使 用 记录 、 浏 览 器 访问 记录 都 抓 取 下 来 ， 然 后 做 一 
个 关键 词 的 分 词 工作 。 或 许 会 分 析出 很 多 类 似 的 记录 片段 ， 用 NoSQL 的 Key-Value 形式 记 
录 ， 如 表 12-4 所 示 。 

表 12-4 ”记录 片段 





37-25-CD-C1-2E-72 | 暴风 影音 ， 游 戏 ， 棋 牌 ， 汽 车 模型 ， 冲 锋 衣 ，iPhone 6s Plus， 小 米 Note 3， 非 月 传 ，UGG， 淘宝 
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这 是 对 MAC 为 “37-25-CD-C1-2E-72” 的 一 台 终 端 设备 的 这 些 记录 做 了 抓 取 ， 并 提取 
关键 词 得 到 的 。 软 件 列 表 越 长 ， 浏 览 咒 访问 记录 越 多 ， 这 样 的 关键 词 留 下 的 也 就 越 多 ， 这 
就 是 最 为 “粗糙 ”的 一 种 用 户 画像 方式 。 与 其 说 是 画像 ， 不 如 说 是 用 户 感 兴趣 的 主题 的 一 
些 提 示 。 当 “37-25-CD-C1-2E-72” 的 广告 位 ( 弹 窗 ) 再 次 请 求 广告 资源 时 ， 这 些 事先 收集 
的 记录 很 有 可 能 帮助 和 这 些 关键 词 有 关 的 产品 广告 获得 这 个 广告 位 ， 谁 掌握 了 这 些 数 据 谁 
些 倾向 性 的 弹 窗 ， 如 弹出 一 个 冲锋 衣 的 广告 ， 弹 出 一 部 高 级 玛瑙 象 模 的 广告 ， 或 者 弹出 一 
个 高 端 汽 车 模型 的 广告 等 。 所以， 这 些 标签 谁 会 有 兴趣 购买 呢 ? DMP (Data Management 
Platform ， 数 据 管理 平台 ) 会 有 可 能 帮助 DSP 提高 一 定 的 转化 率 ， 当 然后 面 的 匹配 算法 有 可 
能 会 非常 复杂 。 

3. 标签 的 权重 

这 些 标 签 的 打 法 原理 大 致 如 此 ， 但 是 并 不 是 所 有 的 免费 软件 都 一 定 会 无 差别 地 搜集 这 
些 数据 ， 因 为 搜集 这 些 数据 并 进行 分 析 同 样 是 有 成 本 的 。 

除了 这 些 免费 软件 的 提供 商 ， 还 有 其 他 商家 会 做 用 户 画 像 操 作 吗 ?” 有 的， 而 且 有 的 商 
家 做 这 些 事情 还 是 手 到 擒 来 非常 方便 ， 如 电信 运营 商 。 

由 于 在 我 国电 信和 是 属于 国家 管制 的 领域 一 一 实名 制 注册 ， 电 信 运 营 商 会 天 然 获 得 一 些 
用 户 的 信息 ， 如 身份 证 号 、 手 机 号 ， 这 些 信息 就 天 然 且 准确 地 存在 。 除 此 之 外 ， 电 信和 运营 
商 还 有 很 多 优势 是 普通 的 软件 所 不 具备 的 ， 电 信 运 营 商 有 和 链 路 ， 有 基站 ， 有 核心 路 由 交换 
设备 。 所 以 ,家 里 的 电脑 或 者 手机 一 旦 连 上 网 ， 那 么 所 有 的 访问 记录 其 实 都 能 够 被 运营 商 
获得 ， 只 要 运营 商 愿意 ， 基 站 会 记录 手机 所 在 的 位 置 以 及 此 刻 的 时 间 。 

你 会 经 常 在 什么 时 间 出 现在 哪个 基站 附近 ， 你 喜欢 上 什么 网 站 ， 每 天 上 网 时 间 多 长 ， 
你 喜欢 浏览 哪些 淘宝 、 天 猫 或 者 京东 的 货品 专栏 ， 你 手机 里 有 哪些 APP 应 用 …… 这 些 信 
A, 除了 HTTPS 加 密 的 访问 以 外 ， 运 营 商 几乎 可 以 做 到 了 如 指 掌 。 曾 经 和 我 同学 聊天 一 一 
他 现在 是 某 电 信 运 营 商 的 大 数据 部 门 主管 ， 据 说 该 运营 商 在 做 用 户 画 像 的 时 候 做 得 十 分 细 
致 ， 包 括 基本 属性 、 位 置 属性 、 交 往 属 性 、 家 庭 属性 、 账 户 属性 、 终 端 属性 、 行 为 属性 、 
消费 属性 、 接 触 属性 、 应 用 使 用 属性 、 流 量 属性 、 内 容 属性 等 ,非常 丰富 ， 最 多 的 情况 下 
曾经 给 有 的 用 户 打 标 签 多 达 3000 多 个 ! 先 不 管 打 得 是 不 是 合理 ， 起 码 是 有 了 这 么 多 不 同 的 









































标签 描述 。 
标签 和 标签 之 间 应 该 有 区 别 地 看 待 吗 ? 我 的 观点 是 ， 应 该 做 以 区 别 ， 让 它 更 准确 地 描 
述 用 户 。 


回头 再 看 刚刚 的 例子 ，MAC“37-25-CD-C1-2E-72”"， 后面 的 标签 有 暴风 影音 ， 游 戏 ， 
棋牌 ， 汽 车 模型 ， 冲 锋 衣 ，iPhone 6s Plus, 小米 Note 3, 3EHÍfZz, UGG, 淘宝。 从 中 能 
到 浏览 顺序 吗 ? 能 看 到 对 这 些 不 同 主题 的 关心 程度 吗 ? (关于 怎么 来 做 分 词 后 面 在 第 14 章 
里 会 介绍 ) 不 大 能 看 出 来 。 这 其 实 好 比 给 一 个 人 面 像 ， 画 了 一 个 鼻子 很 像 ， 画 了 一 只 耳 人 杂 很 
像 ， 面 了 两 只 眼睛 很 像 ， 但 是 没有 放 在 一 起 ， 松 散 地 放 了 一 片 。 
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这 样 的 画像 其 实 还 是 有 很 多 改进 的 余地 。 

其 一 ， 想 想 画 像 这 种 东西 。 我 自己 3 岁 时 的 画像 ， 和 我 上 个 月 的 画像 ， 哪 个 和 现在 更 
像 一 些 ? 显然 是 后 者 。 所 以 ， 距 离 现 在 时 间 越 近 发 现 的 一 些 特质 应 该 和 久远 时 间 发 现 的 特 
质 区 别 对 待 ， 更 强调 近 距 离 时 间 的 特质 而 模糊 远 期 的 特质 。 

其 二 ， 每 个 人 的 画像 中 都 有 不 同 的 形象 ， 有 的 人 臂膀 硕 壮 ， 有 的 人 眼 大 有 神 ， 有 的 人 
长 发 飘 飘 ， 这 些 与 众 不 同 的 特点 即便 不 加 以 夸张 也 应 该 在 画像 中 有 所 体现 。 

其 三 ， 数 字 化 等 级 标注 。 在 前 两 点 里 面 所 说 的 程度 的 区 别 是 要 用 数字 做 标记 区 分 的 。 
还 是 那 句 话 ， 没 办 法 做 到 数字 化 的 东西 是 不 能 计算 也 不 能 比较 的 。 

改良 后 的 用 户 标签 Table User Tag 如 表 12-5 所 示 。 

用 0 一 9 这 10 个 数字 来 标记 程度 ，0 代表 很 表 12-5 改良 后 的 用 户 标签 
低 ，9 代表 很 高 。 这 样 的 一 个 标记 会 比 原 先 没 有 
做 数字 标记 更 有 层次 感 。 这 种 标记 的 依据 可 以 有 












暴风 影音 : 3 


很 多 ， 最 简单 的 标记 方式 可 以 用 以 下 策略 。 piae 
FERRA RREI SCRI DUI E UT [8] ic. 汽车 模型 : 9 
录 进 行 一 次 扫描 ， 整 理 出 一 堆 新 的 关键 词 列表 ， 37-25-CD-CI-2E-72 es M à 
把 它 和 库 里 的 关键 词 列 表 比 对 。 新 发 现 的 关键 词 ES cei ioi 
标记 为 5S， 已 有 的 关键 词 的 标记 数字 +1， 原 来 有 HIE: 2 
UGG: 1 


而 当天 没有 更 新 的 关键 词 -1。 这 种 策略 可 以 作为 
一 种 备 选 的 方式 。 也 就 是 ， 头 一 次 发 现 的 关键 词 
就 是 5， 一 旦 5 天 没 发 现 这 个 关键 词 就 标记 为 0 或 者 干脆 遗忘 掉 (删除 )， 因 为 这 是 一 个 偶 
然 性 的 关键 词 ， 新 词 连续 4 天 被 发 现 ， 热 度 被 升 为 9 …… 这 些 数值 是 可 以 调整 的 ， 调 整 之 后 
的 结果 无 非 是 遗忘 的 周期 会 变化 ， 或 者 热 词 升温 的 节奏 会 变化 而 已 。 

权重 标记 的 策略 是 一 种 比较 主观 的 标记 方法 ， 因 为 权重 标记 策略 说 到 底 是 一 种 人 写 的 
算法 ， 既 然 是 算法 ， 那 就 是 加 工 的 规则 ， 是 人 告诉 机 器 要 怎么 做 ， 这 显然 是 主观 的 做 法 。 
其 实 不 只 是 权重 标记 带 有 主观 因素 ， 就 连 画 像 本 身 都 带 有 主观 因素 。 扫 描 用 户 访问 记录 时 
分 词 是 否 恰当 ， 是 否 要 对 浏览 中 的 中 英文 或 同义词 进行 对 照 转译 ， 是 否 要 对 每 个 浏览 的 页 
面 的 性 质 进行 区 分 ， 是 否 要 对 众多 浏览 页 面 之 间 的 关联 做 挖掘 来 判断 新 的 关键 词 。 这 些 方 
法 的 取舍 都 是 在 考量 成 本 和 收益 而 已 ， 并 无 确切 的 对 错 可 言 ， 所 以 仍然 是 主观 性 占 主导 的 
方式 。 


淘宝 : 3 





12.3 ”利用 用 户 画 像 


12.3.1 割裂 型 用 户 画 像 
前 面谈 论 了 用 户 画 像 怎 么 来 做 。 在 前 面 的 场景 里 其 实 是 割裂 地 进行 用 户 画 像 一 一 设想 
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自己 在 一 种 “公平 "、“ 无 偏向 "、“ 无 目的 ”的 环境 中 对 用 户 进 行 描述 ， 希望 对 用 户 的 描述 
尽量 做 到 根据 客观 观察 到 的 情况 做 客观 性 的 描述 。 这 种 画像 就 是 割裂 的 用 户 画像 。 

这 种 画像 的 好 处 是 计算 相对 比较 简单 ， 而 且 因 为 画像 内 容 和 未 来 的 应 用 目的 无 关 ， 所 
以 画像 的 应 用 场景 也 会 更 加 丰富 。 就 拿 刚刚 说 的 电信 公司 画像 的 例子 来 说 ， 这 样 的 画像 是 
要 比 同 一 个 用 户 在 某 个 垂直 电 商 网 站 里 的 画像 应 用 场景 更 广 的 〈 所 谓 垂直 电 商 就 是 指 只 经 营 
某 一 方面 产品 的 窄 范围 电 商 ， 如 只 经 营 母 婴 产 品 ， 只 经 营 各 种 书籍 ， 或 者 只 经 营 数码 产品 
等 。 而 与 垂直 电 商 相对 的 就 是 京东 、 淘 宝 这 种 综合 性 的 电 商 了 )。 





12.3.2 ”紧密 型 用 户 画 像 

本 章 最 前 面 举 的 例子 里 ， 在 一 个 购物 网 站 通过 购物 记录 的 分 析 来 给 用 户 打 标 签 画像 是 
紧密 的 用 户 画 像 一 -这 个 “紧密 ”是 相对 前 面 “ 割 裂 ” 而 言 的 。 画 像 直接 来 自 于 营业 中 的 
行为 ， 画像 的 结果 也 直接 应 用 于 营业 内 容 。 尤 其 是 对 于 刚刚 提 到 的 这 种 垂直 电 商 ， 它 的 画 
像 紧密 程度 会 更 高 。 


12.3.8 ”到底 “ 像 不 像 ” 

“我 的 画像 到 底 像 不 像 ?” 这 个 问题 是 所 有 初试 用 户 画 像 的 技术 人 员 都 会 问 的 一 个 问题 。 
我 们 可 能 都 曾经 历 这 样 的 纠结 ， 做 了 画像 之 后 ， 怀 疑 自 己 画 得 不 够 “ 像 "。 如 果 你 还 在 纠结 ， 
下 面 就 说 说 我 的 看 法 。 

1.“ 像 不 像 ” 跟 谁 比 

谈论 像 和 不 像 时 是 有 比较 对 象 的 。 

真实 在 纸 上 画 一 个 人 的 肖像 ， 拿 去 和 照片 比 ， 肉 眼 直观 是 能 看 出 像 不 像 的 。 在 用 户 信 
息 库 里 的 用 户 画 像 也 要 有 对 比 的 对 象 ， 问 题 是 ， 这 个 对 象 能 捕捉 到 吗 ?” 未 必 能 。 

能 够 收集 到 的 用 户 相 关 信 息 实 际 是 非常 片面 和 有 限 的 ， 即 便 可 以 购买 到 其 他 第 三 方 的 
用 户 画 像 库 进行 对 比 也 不 一 定 能 比 对 出 结果 。 因 为 收集 的 标签 维度 未 必 一 致 ， 维 度 一 致 内 
容 不 一 致 也 同样 不 能 断言 是 自己 的 库 错 误 还 是 对 比 库 错 误 。 所 以 这 种 对 比 本 身 就 可 能 是 没 
标准 的 比较 。 

2. 信息 反馈 

信息 反馈 对 于 紧密 型 用 户 画 像 来 说 通常 比较 有 效 ， 因 为 反馈 会 很 直接 而 且 及 时 ， 针 对 
性 强 。 也 就 是 说 ,“ 画 得 不 准 ” 没 关系 ， 再 观察 再 画 就 是 了 。 

这 种 情况 一 般 出 现在 系统 “ 冷 启动 ”时 ， 用 户 画 像 库 里 没有 任何 可 以 参考 的 凭据 ， 标 
签 打 出 来 也 是 片面 的 。 

在 这 种 紧密 型 的 用 户 画 像 系统 中 ， 通 常会 非常 依赖 信息 反馈 ， 因 为 画像 本 身 也 就 是 为 
了 提高 产能 转化 率 。 在 电 商 网 站 上 ， 用 户 画 像 就 是 为 了 最 终 的 用 户 购 物 引 导 更 为 有 效 ， 而 
引导 是 不 是 有 效 的 验证 周期 是 极 短 的 ， 甚 至 一 两 天 就 能 验证 完毕 画 得 不 准 大 不 了 过 两 
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天 再 重新 试 着 画 一 次 。 这 种 迭代 的 思想 方式 比 花费 很 长 时 间 只 为 画 一 个 完美 的 用 户 画 像 容 
易 实 现 得 多 。 

还 记得 原来 我 在 做 公开 课 的 时 候 ， 兽 经 做 过 一 个 比喻 。 

德国 二 战 时 期 最 大 的 战列舰 是 介 斯 麦 号 战列舰 ， 满 载 排 水 量 5 万 吨 左右 ， 主 炮 口径 
381mm， 最 大 射程 36.5km。 战 舰 安装 了 “FuMo 23” 火 控 雷 达 ， 有 效 探测 距离 25km, ， 远 不 
及 其 火炮 的 最 大 射程 。 人 的 肉眼 在 上 晴好 的 海面 上 最 远 也 不 过 能 看 到 30km 左右 的 地 方 有 目标 
而 已 。 如 果 想 准确 知道 25 — 36.6km 这 个 距离 上 的 目标 有 没有 被 炮火 击 中 ， 就 只 能 出 动 其 
搭载 的 Ar196 侦察 机 了 。 一 轮 齐 射 以 后 ,侦察 机 报告 射击 偏差 ， 重新 调整 射击 角度 。 如 此 
反复 。 这 种 战术 在 很 多 陆军 战斗 中 的 炮兵 + 侦察 兵 的 配合 中 也 屡 试 不 磋 。 

这 种 方式 就 和 我 们 刚才 说 的 多 次 画像 类 似 ， 因 为 我 们 的 感知 精度 就 是 这 么 有 限 。 


3. 0.1% 已 经 很 多 了 

有 很 多 比较 成 功 的 用 户 画 像 系统 ， 能 够 把 转化 率 提 高 0.3% 左 右 ， 或 者 也 能 到 
0.1% 一 一 大 概 就 是 这 种 感觉 : 原来 没有 用 用 户 画 像 系统 时 ， 广 告 推 荐 系统 转化 率 大 概 是 196, 
使 用 了 用 户 夯 像 系统 后 ， 转 化 率 变 成 了 1.1%。 听 起 来 这 个 数字 好 像 挺 让 人 失望 的 一 一 废 了 
这 交大 力气 才 提 高 这 么 一 点 点 。 

但 是 别 忘 了 整个 市 场 的 容积 是 很 大 的 ，2014 年 度 ， 淘 宝 的 全 年 成 交 额 为 1.172 万 亿 元 
人 民 币 ， 如 果 能 够 提高 仅仅 0.1% 的 销售 额 是 多 少 呢 ， 大 约 11.72 亿 元 人 民 币 。 

iiMedia Research ( 艾 媒 咨 询 ) 在 2015 Æ 8 H fg T (2014—2015 年 中 国 DSP 行业 发 
展 研究 报告 》。 报告 显示 ，2015 年 中 国 网 络 广告 市 场 规模 将 达到 2123.4 亿 元 。2 123.4 亿 元 
人 民 币 ， 提 高 0.1% 也 有 2.123 A 亿 元 人 民 币 ， 这 也 不 是 一 个 小 数字 ! 





12.4 小 结 


用 户 画 像 这 个 概念 只 需 理解 即 可 。 每 个 公司 有 不 同 的 用 户 画 像 的 画 法 ， 只 要 掌握 基本 
的 方法 ， 不 怕 试 错 ， 用 户 画 像 库 是 完全 有 可 能 收集 成 为 一 个 对 业务 有 足够 帮助 的 参考 系 
统 的 。 

用 这 些 标签 和 这 些 标签 对 应 的 用 户 行 为 ， 可 以 通过 逻辑 回归 或 者 归纳 树 算 法 进行 用 户 
行为 的 预测 ， 也 可 以 由 紧密 型 用 户 画 像 直 接 成 为 协同 过 滤 的 参考 对 象 。 大 胆 尝试 ， 不 要 怕 
试 错 ， 用 户 画 像 不 难 。 
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推荐 算法 


推荐 算法 在 现在 很 多 电子 商务 网 站 中 普遍 应 用 。 

推荐 系统 作为 现在 众多 电 商 系统 、 内 容 分 发 系统 等 网 站 的 必要 子 系统 ， 越 来 越 受 到 运 
营 者 的 重视 。 推 荐 系统 核心 要 解决 的 问题 是 提高 转化 率 ， 也 就 是 经 过 分 析 ， 要 猜测 某 一 个 
用 户 更 喜欢 什么 商品 ， 更 可 能 购买 什么 商品 ， 或 者 更 喜欢 哪些 歌曲 、 文 章 ， 在 系统 中 要 进 
行 适当 形式 的 推荐 ， 如 页 面 球 窗 、 营 销 邮 件 、 短 信息 等 。 


13.1 推荐 思路 

在 电子 商务 网 站 中 有 这 样 的 场景 ， 就 是 系统 期 望 通过 分 析 (或 者 说 猜测 ) 给 用 户 推荐 一 
些 商 品 ， 从 而 提高 购物 的 转化 率 。 这 种 推荐 的 现象 当然 首先 还 是 出 现在 实体 店 中 ， 会 经 党 
在 超市 或 者 商场 里 看 到 那些 卖 酸奶 的 小 妹妹 会 老 远 就 招呼 小 女孩 过 去 尝 尝 她 们 的 新 品 酸奶 ， 
或 者 卖 肉 的 会 招呼 路 过 的 大 和 爷 大 妈 过 来 买 新 鲜 的 肉 。 这 本 身 就 是 人 自己 在 利用 推荐 系统 的 
思路 ， 起 码 卖 肉 的 小 贩 会 认为 把 鲜 肉 推荐 给 大 耸 大 妈 会 比 推荐 给 小 朋友 有 着 更 高 的 转化 率 。 

总 体 来 说 ， 推 荐 系统 作为 一 个 确定 目的 的 系统 一 一 提高 转化 率 ， 有 很 多 的 线索 可 以 去 
做 。 因 为 只 要 有 片段 性 的 信息 ， 就 有 提高 转化 率 的 可 能 性 ， 只 要 转化 率 比 推荐 系统 不 参与 
的 时 候 高 ， 推 荐 系统 应 该 说 就 是 有 效 的 ， 只 是 不 同方 式 的 有 效 程度 有 可 能 会 非常 悬殊 。 

其 实 推荐 系统 中 流派 比较 多 ， 每 个 公司 每 个 项 目 具体 落实 起 来 也 是 千差万别 。 在 没有 
介绍 协同 过 滤 个 思路 之 前 ， 先 想 想 看 ， 利 用 已 经 学 过 的 什么 方式 可 以 尝试 做 这 种 推荐 呢 ? 


13.1.1 贝 叶 斯 分 类 


可 以 尝试 使 用 朴素 贝 叶 斯 分 类 的 思路 来 做 一 下 推荐 。 通 过 统计 某 用 户 所 有 购买 物品 的 
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分 布 特性 ， 统 计 该 用 户 购 买 物 品 的 分 布 情况 。 

如 某 用户 ， 他 在 某 网 站 一 共 购 买 过 100 件 商品 ， 其 中 70 件 是 数码 产品 或 小 家 电 ，20 件 
是 登山 用 品 ，10 件 是 其 他 各 类 用 品 。 

在 70 件数 码 产 品 中 ， 有 40 件 是 各 类 音像 制品 ，5 件 是 手机 ，5 件 是 笔记 本 电脑 ， 还 有 
30 件 是 U 盘 、 鼠 标 、MP3 iPad, 648. USB 充电 器 等 各 种 外 设 。 

20 件 登山 用 品 里 有 3 件 帐篷 、3 件 登山 服 、3 双 登 山 靴 、3 个 登山 包 、3 支 登山 杖 、3 
顶 登 山 帽 、 还 有 2 只 专用 手电 。 

10 件 各 类 用 品 就 非常 杂 了 ， 有 零食 、 箱 包 、 内 衣 裤 、 日 化 用 品 等 。 

这 种 情况 下 ， 其 实 拿 来 一 个 新 的 商品 ， 判 断 要 不 要 推荐 给 某 人 ， 就 看 他 购买 的 记录 的 
偏重 ， 可 以 说 购买 音像 制品 的 概率 是 最 高 的 ， 在 全 部 的 100 件 货物 里 占 了 40%， 其 他 类 别 
的 分 析 也 是 同 理 。 

所 以 这 种 情况 下 ， 有 理由 相信 ， 为 这 个 用 户 推荐 一 个 音像 制品 要 比 什 么 都 不 推荐 是 有 
更 高 的 转化 率 的 ， 刚 刚 的 统计 结果 就 是 根据 。 这 种 做 法 从 思路 上 应 该 是 没有 问题 的 ,但 是 
同样 地 这 些 转 化 率 是 要 进行 量化 的 ， 只 需要 记录 推荐 的 商品 有 和 多少 确实 被 购买 了 就 知道 这 
种 方法 的 可 靠 性 有 多 高 了 。 


13.1.2 ”利用 搜索 记录 

不 管 是 在 一 些 网 站 的 广告 位 上 ， 还 是 在 京东 商城 、 淘 宝 等 网 店 上 ， 都 有 过 类 似 的 经 历 ， 
就 是 在 浏览 器 中 搜索 过 的 东西 ， 会 从 广告 位 上 显示 出 来 。 在 网 店 里 ， 网 店 会 根据 用 户 搜索 
过 的 关键 词 猜 测 用 户 想 要 买 某 些 产品 ， 所 以 在 列 出 产品 列表 的 同时 也 会 在 右 侧 给 用 户 推荐 
一 些 商品 (图 13-1 )。 
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图 13-1 淘宝 网 
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即便 在 什么 都 没有 输入 的 情况 下 单 击 “搜索 ”按钮 ， 淘 宝 网 还 是 在 右 侧 为 用 户 推荐 了 
一 些 商 品 ， 下 面 也 列 出 了 一 个 推荐 的 商品 列表 ， 并 且 还 注 明 是 根据 “ 黄 钻 爱 买 店 铺 ” 和 “ 回 
头 客 爱 买 店铺 ”这 些 店铺 的 热卖 商品 来 推荐 的 (图 13-2 )。 
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图 13-2 ”商品 推荐 


在 其 他 网 站 的 广告 位 上 也 会 发 现 一 些 有 趣 的 事情 ， 就 是 曾经 在 百度 或 者 其 他 搜索 引擎 
上 搜索 过 的 东西 会 出 现在 这 些 网 站 的 广告 位 上 ， 或 者 这 个 网 站 的 广告 位 上 会 出 现 一 些 与 当 
前 页 面 内 容 的 关键 词 相 关 的 内 容 推荐 。 这 是 网 站 广告 位 的 JavaScript 代码 读 取 了 浏览 器 的 本 
地 Cookies〈 通 常 可 以 用 来 存储 浏览 器 上 的 表单 信息 、 用 户 名 、 搜 索 关 键 词 等 信息 ) 和 当前 
页 面 的 文本 信息 ， 并 做 了 相应 的 关键 词 提取 ， 最 后 根据 这 些 关 键 词 来 猜测 用 户 可 能 感 兴 超 
的 内 容 再 推荐 到 广告 位 上 。 

应 该 说 这 两 种 方法 的 猜测 方式 都 不 能 算 错 ， 只 有 哪个 性 价 比 更 好 一 说 。 

但 是 有 时 候 也 会 看 到 一 些 让 人 感觉 推荐 系统 很 傻 的 地 方 ， 就 是 搜索 并 购买 了 一 些 产 品 
之 后 它 还 在 不 停 地 进行 最 类 似 产 品 的 推荐 。 就 是 我 们 平时 在 网 上 购物 的 时 候 经 常 看 到 现象 ， 
买 了 鞋子 还 在 推荐 鞋子 ， 这 道 可 以 理解 ， 因 为 鞋子 这 种 很 可 能 一 个 人 会 买 不 止 一 双 。 有 的 
推荐 就 显得 很 不 智能 ， 比 如 我 夹 了 电视 还 推荐 电视 ， 买 了 电 冰 箱 还 推荐 电 冰 箱 。 即 便 是 在 
网 站 能 够 得 知 我 购买 电视 和 空调 的 成 交 记 录 的 情况 下 仍然 这 样 做 ,确实 让 我 们 觉得 系统 很 
弱智 。 但 是 这 也 还 是 可 以 理解 ， 毕 竟 系 统 智 能 的 程度 是 一 个 改进 的 过 程 ， 这 种 根据 购买 产 
品 对 象 的 保有 率 去 对 推荐 内 容 做 调 优 的 尝试 应 该 不 是 它 最 优先 改进 的 内 容 。 

目前 协同 过 滤 公 认 的 应 该 是 两 种 思路 ， 第 一 种 是 利用 早期 大 家 研究 比较 多 的 邻居 方法 。 
而 邻居 方法 中 也 有 两 种 视角 ， 我 们 分 别 来 看 一 下 。 
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第 一 种 ， 基 于 用 户 。 也 就 是 说 ， 系 统 通 过 分 析 一 个 用 户 和 哪些 用 户 的 特征 比较 像 ， 然 
后 看 看 这 些 用 户 喜欢 买 哪 类 的 商品 ， 再 从 这 些 商品 里 挑 出 一 些 推荐 给 该 用 户 。 

第 二 种 ， 基 于 商品 。 也 就 是 说 ， 系 统 通 过 分 析 用 户 的 购买 行为 来 判断 用 户 喜 欢 的 商品 
类 型 ， 然 后 从 那些 用 户 喜 欢 的 商品 类 型 里 挑 出 一 些 推荐 给 用 户 。 

前 者 称 为 User-based CF ( User-based Collaborative Filtering)， 或 者 叫 基 于 用 户 的 协同 
过 滤 ; 后 者 称 为 Item-based CF (Item-based Collaborative Filtering)， 或 者 叫 基于 商品 的 协同 
过 滤 。 

除了 邻居 方法 外 ， 目 前 研究 得 比较 多 是 另外 一 类 方法 ， 也 是 第 二 种 思路 一 一 基于 模 
型 的 推荐 算法 ， 如 果 读 者 有 兴趣 可 以 在 网 上 搜索 阅读 Matirx factorization techniques for 
recommender systems 这 篇 论文 。 

本 章 重 点 介绍 邻居 方法 作为 思路 的 协同 过 滤 算 法 ， 这 种 算法 也 被 称 作 基 于 邻 域 的 推荐 
算法 ， 是 一 种 非常 经 典 的 推荐 算法 思路 。 


13.2 User-based CF 


当 一 个 用 户 进 入 一 个 网 店 时 ， 作 为 网 店 系统 找到 那些 和 该 用 户 兴趣 (喜好 ) 类 似 的 人 ， 
然后 看 看 他 们 喜欢 什么 ， 就 给 该 用 户 推荐 什么 也 许 是 一 种 不 错 的 选择 。 
第 一 步 ， 看 能 不 能 找到 这 样 的 用 户 。 用 户 与 商品 偏好 如 表 13-1 所 示 。 
表 13-1 用 户 与 商品 偏好 | 








假设 能 够 得 到 这 样 一 个 用 户 偏好 的 列表 ， 请 注意 两 点 。 

第 一 ， 这 个 列表 系统 中 本 身 是 不 存在 的 ， 是 需要 对 用 户 的 行为 进行 分 析 后 量化 得 到 的 。 
其 中 的 某 个 小 格子 里 的 数字 是 这 个 用 户 对 该 商品 “兴趣 程度 ”的 一 个 量化 值 ，0 为 没 兴趣 ， 
10 为 非常 有 兴趣 。 量 化 的 方法 有 很 多 种 ， 而 且 没 有 所 谓 最 正确 的 算法 。 得 到 某 个 用 户 对 某 
类 别 产品 的 兴趣 可 以 从 他 给 产品 的 反馈 打分 上 去 看 ， 也 可 以 从 他 购买 的 频繁 程度 上 去 看 ， 
也 可 以 从 他 浏览 的 频繁 程度 上 去 看 。 在 度量 这 个 值 时 可 以 只 用 其 中 的 一 种 方法 ， 或 者 对 这 
些 方法 都 进行 量化 然后 加 权 平 均 得 到 。 例 如 ， 可 以 设计 这 样 的 算法 : 当 一 个 用 户 购买 了 一 
类 商品 ， 这 个 商品 的 兴趣 程度 就 +1， 当 他 浏览 一 次 这 个 商品 ， 兴 趣 程度 就 +0.1， 当 他 给 商 
品 反馈 以 10 分 制 打分 一 次 ， 这 个 商品 的 兴趣 程度 就 对 应 加 这 个 分 数 的 20%， 如 购买 白酒 一 
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瓶 并 打 10 分 ， 那 就 在 白酒 一 栏 +2， 加 到 10 后 则 不 再 累加 。 这 可 以 作为 一 个 策略 。 

第 二 ， 商 品 的 分 类 是 可 以 做 调整 的 。 究 竟 是 使 用 白酒 、 红 酒 、 女 装 这 样 的 大 类 ， 还 是 
具体 使 用 某 一 个 更 小 的 分 类 ， 其 至 精确 到 单 品 是 值得 权衡 的 。 在 使 用 算法 的 过 程 中 一 直 在 
做 权衡 ,计算 的 效率 、 占 用 的 空间 和 推荐 的 质量 的 获得 ， 这 些 其 实 是 要 在 实践 中 不 断 比 对 
来 做 调整 的 。 这 种 调整 ， 包 括 刚才 的 策略 调整 ， 是 可 以 用 AB 测试 来 进行 对 比 的 ， 关 于 AB 
测试 后 面 将 会 具体 介绍 。 

假设 确实 通过 一 定 的 策略 得 到 了 这 样 一 张 表 ， 这 张 表 里 是 有 一 些 空 项 的 ， 这 代表 这 个 
项 目 系统 还 没有 任何 依据 来 判断 兴趣 如 何 ， 因 为 系统 也 不 知道 是 用 户 没 有 兴趣 所 以 才 不 浏 
览 ， 还 是 没 来 得 及 浏览 ， 这 两 个 概念 的 区 分 实在 是 太 暖 昧 了 。 

以 用 户 00001 为 研究 对 象 ， 要 找到 和 他 兴趣 最 接近 的 人 人， 怎么 做 比较 好 呢 ? 这 里 需要 
引入 一 个 概念 ， 叫 做 余弦 相似 性 。 

说 到 余弦 可 能 大 家 不 陌生 ， 就 是 高 中 时 候 学 的 cosine PRA C 
cosGo)。 初 中 的 时 候 学 余弦 是 在 直角 三 角形 〈 图 13-3 ) 里 ， 

个 角 的 余弦 值 就 是 对 边 长 度 与 斜 边 长 度 的 比 , x 的 取 值 范围 是 
0? ~ 90°, 

到 了 高 中 就 有 了 新 的 定义 ， 并且 x 的 取 值 范围 可 以 是 在 正 ^4 B 
负 无 穷 之 间 了 ， 而 且 单 位 换 成 了 弧度 。 这 里 用 的 也 是 cos 这 个 图 13-3 直角 三 角形 
余弦 函数 的 定义 ， 即 两 个 向 量 在 空间 的 夹 角 。 


cos(a, b) = PEDI T in 
式 中 ,a 和 45 都 是 向 量 ， 如 果 听 着 想象 不 出 来 ， 那 我 们 来 b 
个 图 说 明 一 下 。 
如 图 13-4 所 示 ， 有 两 个 三 角形 ， 这 两 个 三 角形 都 是 直角 
三 角形 ，& 向 量 和 4 向 量 分 别 是 两 个 三 角形 的 斜 边 。 假 设 下 面 a 
的 三 角形 左 侧 底 角 为 30"， 上 面 的 三 角形 左 侧 底 角 为 60"， 那 
么 是 可 以 知道 a 向 量 的 长 度 为 2， 而 a 表示 为 (V3，1 ), 5 向 
量 的 长 度 也 是 2， 表示 为 (1,V )， 这 也 就 是 两 个 向 量 的 顶点 
在 平面 直角 坐标 系 里 的 坐标 位 置 。 








FH a fI b 的 向 量 坐 标 求 a 和 4b 夹 角 大 小 ， 代 入 上 面 的 公式 : 图 13-4 余弦 
V3xl+lxV3 
cos(a,b)= 
"m I" J ee «(u5 
V3 


fs. — ff RRK , 可 以 知道 一 是 30? 角 的 余弦 值 ， 所 以 和 请 向 量 的 夹 角 为 30"。 这 
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个 例子 在 图 上 也 能 直接 看 出 来 是 30>， 印 证 起 来 方便 一 些 。 
cos(a, b) = T AASR, a- b 就 是 两 个 向 量 的 x、y 维度 各 自 做 了 乘积 再 加 和 ， 下 


面 的 lal - |b| 算式 其 实 是 两 个 向 量 线段 的 长 度 ， 即 勾 股 定理 ,x+y 。 

a ^il b 两 个 向 量 在 空间 上 只 要 方向 一 致 ， 大 小 不 论 是 否 相 同 ， 都 会 得 到 cos(a,b)=1， 而 
方向 相反 ， 则 cos(wb)=-1， 有 兴趣 的 话 我 们 可 以 用 别 的 值 来 验算 一 下 也 无 妨 。 

再 看 刚刚 的 例子 ， 把 用 户 在 一 些 不 相干 的 商品 类 别 的 爱好 当做 一 个 空间 向 量 ， 把 每 个 
商品 类 别 作 为 一 个 维度 ， 就 像 刚 才 的 x 和 y 坐标 那样 。 我 们 试 着 求 一 下 00001 这 个 用 户 和 
00002 这 个 用 户 已 知 部 分 的 爱好 相似 程度 。 

10x8+7x7+2x8+4x5 _80+49+16+20 _ 
OT HT HA x48? +77+8245?  V169x4202 — 

因为 知道 最 相似 的 是 1， 最 不 相似 的 是 -1， 所 以 这 个 相似 度 还 是 很 高 的 。 

同 理 也 能 够 求 出 00001 用 户 和 其 他 任何 一 个 用 户 的 兴趣 相似 程度 。 

之 后 设置 一 个 相似 的 靖 值 ， 如 0.8 、0.85…… 或 者 其 他 任何 一 个 值 ， 看 看 相似 度 超过 这 
个 国 值 的 用 户 都 有 什么 购物 喜好 ， 把 他 们 喜好 购买 的 东西 推荐 给 00001 用 户 作为 推荐 方案 
即 可 。 这 就 是 一 种 思路 最 为 朴素 的 基于 用 户 的 协同 过 滤 算 法 思路 。 

扩展 一 下 ， 除 此 之 外 还 可 以 考虑 这 个 用 户 和 用 户 之 间 相 似 的 向 量 还 能 怎么 设计 。 用 户 
属性 表 如 表 13-2 所 示 。 





cos(00001, 00002) = 0.89 





XX 13-2 用 户 属性 表 
RD "s 
或 许 在 一 些 银行 或 者 理财 产品 售卖 的 机 构 会 有 这 样 的 一 种 列表 ， 利 用 这 种 列表 同样 也 
能 够 去 观察 哪些 用 户 之 间 更 相似 ， 然 后 找到 相似 的 用 户 ， 再 把 这 些 用 户 比 较 喜 好 的 产品 推 
荐 给 他 。 方 法 有 很 多 ， 后 面 将 会 介绍 。 


13.3 Item-based CF 


除了 刚才 介绍 的 基于 用 户 的 协同 过 滤 以 外 ， 青 来 看 一 下 基于 商品 的 协同 过 滤 。 

基于 物品 的 协同 过 滤 算 法 最 早 是 由 著名 的 电 商 公司 亚马逊 提出 的 。 这 种 算法 给 用 户 推 
荐 那些 和 他 们 之 前 喜欢 的 商品 相似 的 商品 。 但 是 ， 这 种 算法 和 前 面 的 基于 用 户 的 协同 过 波 
算法 不 一 样 一 一 它 并 不 是 要 建立 一 个 商品 属性 的 矩阵 来 计算 物品 之 间 的 相似 度 。 其 实 想 想 
也 知道 这 种 方式 很 可 能 行 不 通 ， 一 来 是 由 于 商品 之 间 的 属性 相差 较 大 ， 做 起 来 可 能 会 比较 
困难 ， 二 来 是 由 于 计算 量 太 大 难以 实现 。 所 以 这 个 算法 主要 通过 分 析 用 户 的 行为 来 计算 物 
品 之 间 的 相似 度 。 
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一 句 话 概括 就 是 这 样 :“ 有 很 多 人 喜欢 商品 A， 同 时 他 们 也 喜欢 商品 B， 所 以 A 和 B 应 
该 是 比较 类 似 的 商品 。” 这 就 是 整个 算法 的 核心 思路 。 

计算 起 来 可 以 分 成 以 下 两 个 步骤 。 

C1) 计算 商品 之 间 的 相似 度 。 

(2 ) 根据 物品 的 相似 度 和 用 户 的 偏好 来 给 用 户 生成 推荐 列表 。 

这 里 同样 用 到 了 余弦 相似 性 的 概念 ， 但 是 公式 略 有 不 同 : 

N(An B) 
cos( A, B) TNA NG) 

解释 一 下 ， 如 果 计 算 商 品 4 和 商品 B 的 相似 性 ， 那 么 就 计算 这 个 商 值 ， 分 子 是 同时 襄 
Xk ACRI B 两 个 商品 的 用 户 数量 ,分 母 是 喜欢 4 的 用 户 数量 和 喜欢 B 的 用 户 数 量 的 乘积 的 平 
方 根 。 

如 果 要 得 到 产品 和 用 户 喜 好 数量 的 关系 ,计算 过 程 如 下 。 

用 户 00001: 和 象棋、 扑克 牌 、 篮 球 

用 户 00002: 扑克 牌 、 乒 乓 球 、 乒 乓 球拍 

用 户 00003: 乒乓 球 、 乒 乓 球拍 

用 户 00004: 围棋 、 扑 克 牌 

用 户 00005: 和 象棋、 围棋、 足球 、 扑 克 牌 

一 个 文娱 用 品 商店 的 销售 记录 ， 记 录 了 每 一 个 用 户 购买 的 产品 内 容 ， 这 里 只 用 5 

个 用 户 来 做 一 个 演示 。 

首先 要 分 别 得 到 每 个 用 户 购 买 物 品 的 邻接 抢 阵 ， 如 用 户 00001 购物 邻接 和 矩阵 如 表 13-3 
所 示 。 


表 13-3 ”用户 00001 购物 邻接 矩阵 











这 个 矩阵 就 是 根据 刚刚 看 到 的 用 户 00001 的 购买 记录 得 到 的 ， 由 于 象棋 、 扑 克 牌 和 篮 
球 同 时 出 现在 他 的 购物 列表 里 ， 所 以 “象棋 和 扑克 牌 "、“ 象 棋 和 篮球 ”、“ 扑 克 牌 和 篮球 ” 
两 两 “邻接 "” ， 也 就 是 说 这 些 标注 1 的 小 格子 代表 这 两 种 一 起 在 一 个 人 的 购物 记录 里 出 现 过 
一 次 一 一 注意 买 过 就 算 ， 可 不 是 必须 出 现在 同一 次 购物 篮 里 ， 这 一 点 和 关联 分 析 时 所 用 的 
Apriori 算法 的 场景 是 不 同 的 。 
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同样 能 够 得 到 其 他 几 个 人 的 购物 邻接 和 矩阵。 
用 户 00002 购物 邻接 矩阵 如 表 13-4 所 示 。 
表 13-4 用户 00002 购物 邻接 矩阵 





用 户 00003 购物 邻接 矩阵 如 表 13-5 所 示 。 
表 13-5 用 户 00003 购物 邻接 矩阵 

















用 户 00004 购物 邻接 和 矩阵 如 表 13-6 所 示 。 
xk 13-6 ”用 户 00004 购物 邻接 矩阵 











用 户 00005 购物 邻接 矩阵 如 表 13-7 所 示 。 


表 13-7 MA 00005 购物 邻接 矩阵 
商品 名 称 
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商品 名 称 
乒乓 球 








所 有 的 这 种 邻接 矩阵 都 是 沿 对 角 线 对 称 的 。 
下 一 步 把 这 些 和 矩阵 “ 赫 加 ”在 一 起 ， 即 将 每 一 个 矩阵 的 每 个 对 应 的 方 格 数字 相 加 ， 最 


后 得 到 如 表 13-8 所 示 的 中 间 和 矩阵 Co 
表 13-8 




















从 这 个 中 间 和 矩阵 里 ， 可 以 看 到 同时 喜欢 象棋 和 扑克 牌 的 有 2 个人， 同时 喜欢 乒乓 球拍 
和 乒乓 球 的 有 2 个 人 ， 同 时 喜欢 围棋 和 象棋 的 有 1 个 人 …… 由 于 矩阵 是 对 称 的 ， 所 以 读 右 
上 方 的 三 角形 就 足够 了 。 

这 时 如 果 对 任意 两 个 商品 的 相似 度 做 评估 ， 如 计算 象棋 和 围棋 的 相似 程度 ， 套 用 刚才 
的 公式 : 


N(AnB) 
VN(A): N(B) 

分 子 是 同时 喜欢 围棋 和 象棋 的 人 ， 下 面 两 个 值 N(4) 和 NB) 就 是 喜欢 围棋 和 喜欢 象棋 
的 人 一 一 这 两 个 值 要 从 前 面 的 购物 记录 里 得 到 。 
1 


cos(4, B) = 





cos( A, B) t i z 0.5 
象棋 和 围棋 的 相似 度 约 为 0.5。 
再 试 算 一 下 乒乓 球拍 和 乒乓 球 的 相似 度 : 
2 
cos(A,B)= Ta zl 


说 明 相 似 度 极 高 ， 买 乒乓 球 的 人 必 买 乒乓 球拍 ， 买 乒乓 球拍 的 人 必 买 乒乓 球 。 
ER (商品 相似 度 ) 如 表 13-9 所 示 。 
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表 13-9 商品 相似 度 








具体 在 做 推荐 的 时 候 可 以 这 样 使 用 。 

计算 完 中 间 和 矩阵 C 之 后 ， 当 要 对 一 个 用 户 做 推荐 时 ， 先 把 这 个 用 户 的 历史 购买 记录 都 
列 出 来 ,假设 及 个 购买 记录 。 然 后 对 这 个 列表 里 每 一 个 产品 都 用 查 表 的 方法 查 一 次 相似 
度 ， 这 样 会 得 到 个 列表 ， 每 个 列表 里 都 是 一 个 产品 和 其 对 应 的 相似 度 的 关系 。 把 这 nn 个 
列表 做 一 个 排序 ， 相 似 度 高 的 在 前 ， 相 似 度 低 的 在 后 。 如 果 要 推荐 3 个 商品 就 取 前 3 个 ， 
如 果 要 推荐 5 个 商品 就 取 前 5 个 。 


13.4 优化 问题 


1. 规模 和 效率 

早 在 2012 年 时 京东 商城 的 商品 就 已 经 超过 100 万 种 单 品 了 ， 日 均 PV 超过 5 000 万 。 
在 这 么 大 规模 的 环境 下 ， 使 用 Item-basedCF 算法 会 出 现 一 些 显而易见 的 问题 。 

如 果 有 100 万 种 商品 ， 每 种 商品 都 被 人 买 过 至 少 一 次 ,那么 会 产生 一 个 100 万 x100 
万 的 和 矩阵， 也 就 是 10 000 亿 个 单位 的 表格 。 如 果 每 个 单位 都 用 4 字 节 的 整数 来 计数 ， 光 这 
个 表格 就 至 少 要 使 用 3.64 TB 的 数据 一 一 别 说 内 存 了 ， 硬 盘 放 都 困难 。 

其 实 不 妨 想 想 看 ， 这 些 商 品 也 许 确实 都 被 人 买 过 ， 但 是 什么 时 候 买 的 ， 买 的 人 是 经 常 
来 买 还 是 偶尔 买 了 一 次 其 实 是 没有 做 任何 区 分 的 。 然 而 在 一 个 购物 网 站 中 ， 应 该 更 重视 那 
些 在 网 站 经 常 购买 商品 的 人 ， 因 为 这 些 人 才 是 真正 的 网 购 习惯 者 ， 另 外 就 是 近期 被 人 购买 
的 商品 ， 远 远 比 那些 老 的 过 时 的 或 者 淘汰 的 商品 有 价值 。 那 么 真 的 应 该 挑 出 100 万 种 商品 
做 这 个 邻接 矩阵 的 计算 吗 ? 未 必 ， 而 且 我 也 不 推荐 那样 做 。 可 以 尝试 着 只 从 活跃 用 户 的 购 
物 列表 去 找 候选 产品 ， 也 可 以 从 最 近 半 年 被 人 购买 的 产品 中 找 候选 产品 ， 也 可 以 两 者 结合 
来 进行 。 

2. 覆盖 率 

在 Item-basedCF 算法 中 还 会 存在 一 种 问题 ， 那 就 是 关于 覆盖 率 和 多 样 性 的 问题 。 下 面 
来 具体 看 一 个 例子 。 

假设 经 过 计算 某 用 户 喜 欢 的 物品 里 有 3 本 不 同 的 书 ，3 件 不 同 的 衣服 ，3 盒 不 同 品牌 型 
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号 的 乒乓 球 。 很 可 能 由 于 购买 乒乓 球 时 就 会 买 乒乓 球拍 ， 导 致 进行 商品 相似 度 计算 时 ， 
该 用 户 推荐 的 商品 里 乒乓 球拍 的 相似 度 总 是 最 高 的 ， we 
的 商品 推荐 ， 而 这 其 实 不 是 我 们 期 望 得 到 的 。 其 次 ， 那 些 热门 商品 之 间 的 相似 度 也 会 非常 
高 ， 因 为 大 家 在 一 个 时 间 段 内 都 买 这 些 热 门 商品 的 概率 比较 高 ， 所 以 这 些 商 品 之 间 的 相似 
i-o 

我 们 期 望 的 不 是 一 个 高 度 收 敛 的 推荐 算法 ,而 是 商品 种 类 要 丰富 ， 也 就 是 商品 的 覆盖 
er ee 一 个 物品 相似 度 的 归 一 化 算法 。 

所 谓 归 一 化 就 是 把 商品 相似 度 和 矩阵 做 如 下 变化 : 


Wy 


Ur aides 


Wij — = 





也 就 是 对 每 一行 的 相似 度 信和 当前 行 的 最 大 值 计算 一 一 个 比值 ， 把 这 个 比值 当 作 新 的 结 
果 放 在 和 矩阵 里 ， 变 换 之 后 的 归 一 化 商品 相似 度 和 矩阵 如 表 13-10 所 示 (商品 相似 度 -Norm ) 。 
LAKA = CRM 














这 样 直 观 的 感觉 就 是 所 有 原来 相似 度 看 上 去 比较 低 的 值 都 被 拉 高 了 ， 缩 小 了 差距 ， 这 
其 实 是 对 刚刚 的 忧虑 在 算法 上 做 出 了 一 些 补偿 。 

这 种 补偿 的 思路 如 果 没 有 理解 清晰 ， 可 以 看 如 下 补充 的 例子 。 

在 大 学 里 有 很 多 科目 的 考试 ， 而 对 于 科目 考题 难度 的 设计 通常 比较 难 把 握 。 每 一 年 会 
由 于 招生 政策 的 变化 以 及 提 档 线 的 变化 导致 生源 质量 不 同 ; 教材 体系 改革 会 导致 教材 难度 
也 有 不 规律 的 波动 ; 大 学 教师 的 教学 水 平和 风格 也 会 有 差异 等 。 这 么 多 不 同 的 因素 组 合 在 
一 起 ， 就 有 可 能 引发 一 些 奇怪 的 现象 ， 如 某 一 年 由 于 考题 设计 太 难 ， 导 致 整个 年 级 的 学 生 
最 高 分 才 59 分 ， 即 便 可 以 让 他 们 每 个 人 都 算 挂 科 一 次 ， 但 是 考试 的 选拔 特性 变 得 不 太 好 ， 
考生 之 间 的 档次 也 看 不 出 来 。 

这 里 可 以 进行 一 次 核算 ， 和 刚才 的 公式 一 样 ， 让 这 个 最 高 分 的 59 分 换算 为 100 分 ， 其 
他 各 位 学 生 的 分 数 同样 做 这 种 换算 ， 那 么 就 是 套用 如 下 公式 : 

y- sg X100 


这 样 做 的 好 处 不 是 为 了 挽救 一 些 人 让 他 们 不 要 被 列 和 人 不 及 格 的 范畴 ， 而 是 把 原本 分 布 
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很 窗 的 一 个 分 数 区 间 拉 开 了 ， 让 分 数 和 分 数 、 人 和 人 之 间 的 距离 感 更 好 ， 便 于 进一步 前 选 
和 分 类 。 这 种 思路 在 算法 中 会 有 很 多 地 方 有 体现 。 归 一 化 在 第 9 章 中 也 有 使 用 ， 作 用 是 很 
相近 的 。 


13.5 ”小结 


推荐 系统 是 一 个 综合 的 生产 过 程 ， 几 乎 所 有 用 来 提高 转化 率 的 方法 都 可 以 用 来 作为 推 
荐 系统 的 一 部 分 。 可 以 采用 在 本 章 中 提 到 的 协同 过 滤 算 法 ， 可 以 采用 基于 用 户 画 像 的 逻辑 
回归 ， 也 可 以 使 用 关键 分 析 中 的 频繁 项 集 去 寻找 可 推荐 的 商品 。 

本 章 接触 到 一 个 新 的 度量 距离 的 手段 ， 就 是 使 用 余弦 相似 度 来 进行 度量 ， 这 和 以 前 介 
绍 的 用 欧 氏 距离 或 曼哈顿 距离 的 方法 是 大 不 一 样 的 。 余 弦 相 似 度 用 的 是 夹 角 概 念 ， 例 如 ， 
张 三 买 了 5 双 皮 鞋 ， 又 买 了 5 双 球 鞋 ， 这 样 在 (皮鞋 ， 球鞋 ) 这 两 个 维度 的 向 量 空间 中 可 以 
用 (5,5) 来 表示 ; 李 四 买 了 3 SUE SE, NET 3 双 球 鞋 ， 就 用 (3,3) 来 表示 。 在 这 种 情况 下 ， 
可 以 认为 他 们 对 鞋 类 的 喜爱 程度 虽然 有 所 差别 ,但 是 体现 出 来 的 还 都 是 没有 什么 疑义 的 喜 
爱 ， 这 种 态度 是 明确 的 。 所 以 在 这 个 空间 中 向 
量 (5,5) 和 问 量 (3,3) 实际 上 夹 角 是 0， 也 就 是 
余弦 相似 度 为 1 一 一 非常 相似 。 这 种 解释 要 比 
求 出 的 欧 氏 距离 2V2 更 有 意义 ， 因 为 在 欧 氏 距 
离 上 同 为 2V2 的 距离 ， 其 向 量 上 所 体现 出 来 的 
对 不 同 物品 维度 的 倾向 怒 怕 会 有 很 多 不 同 其 至 
是 相反 的 。 如 图 13-5 所 示 ，48 线段 用 来 表示 
242 的 距离 ， 一 象限 的 两 个 向 量 之 间 的 距离 是 
2V2 ， 二 、 三 象限 的 两 个 向 量 之 间 的 距离 仍然 
是 2V2 ， 但 是 从 直观 上 看 ， 一 象限 的 两 个 向 量 
的 方向 一 致 性 要 比 二 、 三 象限 这 两 个 向 量 的 方 
向 一 致 性 好 很 多 。 在 这 种 情况 下 是 不 应 该 做 出 
距离 相等 的 判断 的 。 

在 实际 应 用 中 ， 要 注意 多 进行 摸索 ， 评 估 
方法 的 有 效 性 和 对 比 测试 ， 并 作出 不 断 的 调整 ， 这 样 才能 使 得 算法 准确 程度 不 断 进 化 。 





图 13-5 欧 氏 距离 不 能 体现 向 量 的 相似 程度 
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文本 挖掘 


文本 挖掘 是 近 几 年 来 越 来 越 火 的 数据 挖 据 方 向 。 

对 于 传统 的 结构 化 数据 挖掘 来 说 ， 文 本 挖掘 更 多 的 是 对 自然 语言 的 分 析 ， 模 糊 性 强 ， 
结构 性 弱 ， 难 度 大 ,一 直 都 是 挑战 的 方向 。 

文本 挖掘 一 般 来 说 是 从 大 量 文本 数据 中 抽取 事先 位 置 的 、 可 理解 的 、 最 终 可 用 的 知识 
的 过 程 ， 同 时 运用 这 些 只 是 更 好 地 组 织 信息 以 便 将 来 参考 。 这 是 一 个 从 非 结 构 化 的 文本 信 
息 中 寻找 知识 的 过 程 。 


14.1 OR TE S E 


文本 挖掘 一 般 来 说 有 以 下 7 个 主要 的 领域 。 

C1) 搜索 和 信息 检索 (Information Search, IR) : 存储 和 文本 文档 的 检索 ， 包 括 搜索 引 
擎 和 关键 字 搜 索 

(2) 文本 聚 类 : 使 用 聚 类 方法 ， 对 词汇 、 片 段 、 段 落 或 文件 进行 分 组 和 归 类 。 

(3) 文本 分 类 : 对 片段 、 段 落 或 文件 进行 分 组 和 归 类 ， 在 使 用 数据 挖掘 分 类 方法 的 基 
础 上 ， 通 过 训练 来 标记 示例 模型 ， 

(4) Web 挖掘 : 在 互联 网 上 进行 数据 和 文本 挖掘， 并 特别 关注 网 络 的 规模 和 相互 联系 。 

(5) 信息 抽取 (Information Extraction, IE): 从 非 结 构 化 文本 中 识别 与 提取 有 关 的 事实 
和 关系 ; 从 非 结 构 化 或 半 结 构 化 文本 中 抽取 出 结构 化 数据 的 过 程 。 

(6) 自然 语言 处 理 ( Natural Language Processing, NLP): 将 语言 作为 一 种 有 意义 、 有 
规则 的 符号 系统 ， 在 底层 解析 和 理解 语言 的 任务 (如 词性 标注 ); 目前 的 技术 主要 从 语法 、 
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语义 的 角度 发 现 语言 最 本 质 的 结构 和 所 表达 的 意义 。 

(7 ) 概念 提取 : 把 单词 和 短语 按 语 义 分 成 意义 相似 的 组 。 

以 上 每 一 个 概念 内 容 都 非常 多 ， 每 一 个 概念 都 能 写 一 本 书 甚至 几 大 本 书 ， 这 里 主要 对 
文本 分 类 及 相关 的 问题 进行 讨论 。 


14.2 文本 分 类 


和 其 他 分 类 学 习 的 思路 相似 ， 拿 到 文本 的 样本 后 也 是 要 对 文本 进行 样本 类 别 标记 ， 然 
后 把 这 些 样 本 交 给 计算 机 进行 学 习 。 

文本 分 类 中 训练 的 主要 工作 步骤 如 下 。 

1. 分词 

由 于 文本 本 身 的 非 结 构 化 或 者 半 结 构 化 特性 ， 没 办 法 对 一 篇 文章 直接 做 向 量 标记 。 所 
以 ， 拿 到 一 篇 文章 后 ， 通 常 第 一 步 是 做 分 词 。 而 后 通过 词义 以 及 词 与 词 的 逻辑 衔接 来 判断 
语言 的 意义 或 情绪 。 

分 词 是 在 中 文 文本 处 理 中 遇 到 的 第 一 个 问题 ， 因 为 和 英文 不 一 样 ， 中 文 是 没 办 法 用 空 
格 进行 分 词 的 。 所 以 最 早 在 中 文中 尝试 做 分 词 就 是 使 用 类 似 查 字典 的 办 法 ， 用 标点 把 文章 
分 成 多 个 子 句 ， 在 每 个 字句 中 推进 式 地 “ 查 词典 ”， 在 词 库 字典 中 查 到 的 完整 词 就 从 字句 中 
拿 掉 ， 然 后 继续 向 下 搜索 。 这 种 方式 已 经 淘汰 了 ， 因 为 它 的 查询 非常 机 械 而 且 不 准确 。 

如 句子 “北京 大 学 是 所 老牌 大 学 。” 这 个 句子 如 果 按 照 这 么 机 械 的 划分 方法 就 会 被 划分 
成 “北京 ”“ 大 学 ”“ 是 ”“ 所 ”老牌 ”““ 大 学 ”， 但 是 “北京 大 学 ”其 实 是 一 个 专 有 名 词 ， 不 应 
该 这 么 划分 。 

而 随 着 计算 机 技术 的 发 展 与 进步 ， 包 括 软件 和 硬件 方面 的 进步 ， 更 为 科学 和 智能 的 分 
词 方式 也 逐步 开发 出 来 ， 即 基于 统计 语言 模型 (Statistical Language Model, SLM) 的 方式 。 
其 中 比较 有 影响 力 的 是 中 国 科学 院 计 算 所 开发 的 汉语 词法 分 析 系 统 NLPIR 汉语 分 词 系统 ， 
也 叫做 ICTCLAS2013 ， 现 已 公开 发 布 供 中 文 文本 分 类 的 研究 使 用 。 这 是 一 个 开源 的 软件 系 
统 ， 读 者 有 兴趣 可 以 在 网 上 搜索 并 下 载 。 据 称 这 款 产 品 的 分 词 精度 能 够 超过 98%， 中 国人 
人 名 的 识别 召回 率 也 接近 98%。NLPIR 在 网 上 是 有 开放 的 在 线 文 章 分 析 平 台 以 及 分 词 系 统 
下 载 的 。 

补充 介绍 一 下 ， 召 回 率 (Recall) 和 精度 (Precise) 是 广泛 用 于 信息 检索 和 统计 学 分 类 
领域 的 两 个 指标 ， 用 来 评价 结果 的 质量 ， 同 样 这 两 个 指标 在 推荐 系统 也 得 到 了 广泛 应 用 。 
其 中 召回 率 是 检索 出 的 相关 文档 数 和 文档 库 中 所 有 的 相关 文档 数 的 比率 ， 衡 量 的 是 检索 系 


统 的 查 全 率 。 精 度 是 检索 出 的 相关 文档 数 与 检索 出 的 文档 总 数 的 比率 ， 衡 量 的 是 检索 系统 
的 查 准 率 。 


除 此 之 外 还 有 诡 丁 解 牛 分 词 带 ， 这 是 一 款 基于 Lucene 的 中 文 分 词 器 开源 软件 系统 ， 也 ， 
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是 一 个 开源 的 分 词 器 系统 ， 不 少 熟悉 Java 和 Lucene 的 程序 员 应 该 都 对 此 比较 熟悉 ， 在 此 不 
做 重点 介绍 ， 读 者 有 兴趣 可 以 自己 去 研究 一 下 。 


2. 文本 表示 

文本 表示 其 实 就 是 文本 的 向 量化 问题 ， 因 为 就 文本 本 身 来 说 ,计算 机 是 无 法 理解 其 含 
义 的 。 现 在 用 得 比较 多 的 模型 是 由 Gerard Salton 和 McGill 于 1969 年 提出 的 向 量 空间 模型 
(Vector Space Model, VSM). 

向 量 空间 模型 的 基本 思想 是 把 文档 简化 为 特征 项 的 权重 为 分 量 的 向 量 表示 : (wi, 
wa, e, wW) EP wi 为 第 i 个 特征 项 的 权重 ,一 般 选 取 词 作为 特征 项 ， 权 重用 词 频 表示 。 
词 频 分 为 绝对 词 频 和 相对 词 频 。 

绝对 词 频 ， 即 用 词 在 文本 中 出 现 的 频率 表示 文本 。 

相对 词 频 ， 即 为 归 一 化 的 词 频 ， 其 计算 方法 主要 运用 TF-IDF 公式 (Term Frequency- 
Inverse Document Frequency ) 。 

什么 是 归 一 化 呢 ? 在 第 13 章 中 也 提 到 过 归 一 化 的 问题 ， 就 是 从 绝对 数量 转化 成 比例 的 
一 种 思路 。 在 TF-IDF 算法 中 ， 归 一 化 是 为 了 避免 长 文档 比 短文 档 拥 有 过 多 数量 的 词 频 而 采 
取 的 方式 。 举 例如 下 。 

词 频 (TF) 是 一 个 词语 出 现 的 次 数 除 以 该 文件 的 总 词语 数 。 假 如 一 篇 文件 的 总 词语 数 是 
100 个 ， 而 词语 “汽车 ”出 现 了 5 次， 那么 “汽车 ”一 词 在 该 文件 中 的 词 频 就 是 5/100=0.05 
或 者 说 5%。 一 个 计算 文件 频率 DF) 的 方法 是 测定 有 多 少 份 文件 出 现 过 “汽车 ”一 词 ， 
然后 除 以 文件 集 里 包含 的 文件 总 数 。 所 以 如果“ 汽车 ”一 词 在 100 份 文件 出 现 过 ， 而 文 
件 总 数 是 10 000 份 ， 其 逆向 文件 频率 就 是 lg (10 000/100) =2。 最 后 的 TF-IDF 的 分 数 为 
0.05 x 2=0.1。 其 中 TF-IDF 分 数 和 词 频 和 逆向 文件 频率 成 正比 。 

也 就 是 说 ， 如 果 某 个 词汇 在 一 篇 文章 中 出 现 的 频率 TF 高 ， 并 且 在 其 他 文章 中 很 少 出 
现 ， 则 认为 这 个 词汇 有 很 好 的 类 别 区 分 能 力 ， 适 合用 来 分 类 ; TF 表示 该 词汇 在 文档 中 出 现 
的 频率 ， 而 IDF 则 表示 ， 含 有 该 词汇 的 文档 比例 越 低 IDE 越 大 ， 则 说 明 该 词汇 具有 越 好 的 
类 别 区 分 能 力 。 


3. 分 类 标记 

分 词 和 分 词 权重 最 后 要 和 分 类 的 标签 之 间 产 生 一 个 映射 关系 。 而 描述 这 种 映射 的 过 程 
是 需要 算法 来 实现 的 ， 可 以 用 概率 来 实现 ， 也 可 以 用 基于 向 量 空 间 的 回归 来 实现 。 常 用 的 
算法 有 Rocchio 算法 、 朴 素 贝 叶 斯 分 类 算法 、K- 近邻 算法 、 决 策 树 算 法 、 神 经 网 络 算法 和 
支持 向 量 机 算法 等 ， 下 面 就 对 每 种 算法 的 实现 原理 做 一 个 说 明 。 


14.2.1 Rocchio 算法 


Rocchio 算法 是 一 种 从 感性 上 非常 直观 的 文本 分 类 的 算法 。 
Rocchio 算法 的 核心 思路 是 给 每 一 个 文档 的 类 别 都 做 一 个 标准 向 量 





也 有 的 地 方 称 为 
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原型 向 量 ， 然 后 用 待 分 类 的 文档 的 向 量 和 这 个 标准 向 量 比 一 下 余弦 相似 度 ， 相 似 度 越 高 越 
可 能 属于 该 分 类 ， 反 之 则 不 然 。 

例如 ， 在 某 新 闻 网 站 中 ， 和 希望 构造 一 个 自动 的 文章 分 类 系统 ， 那 么 先 收集 10 000 个 样 
本 ,然后 由 人 给 每 篇 文章 划分 类 别 。 例 如 ， 有 “和 军事 类 ”"、“ 体 育 类 ”、“ 经 济 类 ”、“ 娱 乐 类 ”、 
“科技 类 ”等 ， 每 一 篇 文章 都 有 至 少 一 个 所 属 的 类 别 。 如 “军事 类 ”， 把 里 面 每 一 篇 文章 逐 
个 拿 出 来 做 分 词 和 向 量化 ， 这 样 最 后 “军事 类 ”里 面 的 每 一 篇 文章 都 有 一 个 非常 长 的 向 量 


模型 。 
文章 1: (' 坦克 ，0.05'，' 侵略 ，0.03'，' 反击 ，0.01'，' 战争 ，0.03'，' E A, 001, ' 动 
员 ，0.01'，… ) 
文章 2: C 战机，0.03'，' 临 室 ，0.01'，' 雷达，0.02',' 抗 议 ，0.01',' 和 平 ，0.03'，' 呼 
Fa 0.02, e) 
X3 3. CHR, 0.02', "3E, 0.02', "HR, 0.02, "PAR, 0.01', '#F, 0.02', ' 外 
Z, 0.02', =) 


后 面 还 可 以 有 很 多 的 文章 样本 。 

在 这 里 为 了 表示 方便 ， 维 度 和 它 的 权重 直接 标 在 一 起 ， 如 ' 坦克，0.05' 表示 “坦克 ” 
这 个 词 的 词 频 为 0.05。 

把 “军事 类 ”所 有 的 文章 进行 各 个 维度 的 平均 ， 也 就 是 对 每 篇 文章 中 的 “坦克 ”"、“ 侵 
略 ”“ 战 机 ”““ 雷 达 ” 等 词汇 的 词 频 进 行 平均 ， 会 得 到 一 个 诸如 这 样 的 向 量 : 军事 类 原型 
向 量 : (' 坦克 ，0.010'，' 侵略 0.003', ' 战机 ，0.003'，' 临 空 0.002', ' 雷达 ，0.003'，… )， 
这 个 向 量 非常 长 ， 可 能 有 几 千 或 者 几 万 维 ， 可 以 把 这 个 原型 向 量 形象 地 称 为 “质心 ” 。 读 者 
应 该 也 注意 到 ， 在 文本 挖掘 中 使 用 的 向 量 和 前 面 在 多 维 向 量 空 间 一 章 所 介绍 的 向 量 有 所 不 
同 。 在 第 7 章 中 的 向 量 通常 维度 比较 少 ， 而 且 维度 的 值 或 为 实数 或 为 枚 举 。 而 在 文本 挖掘 
中 用 来 描述 文章 的 向 量 通常 因 文 章 的 不 同 而 不 同 ， 小 短文 也 有 几 百 个 维度 ， 长 文章 可 能 会 
有 上 万 的 维度 。 这 里 面 一 个 词 就 是 一 个 维度 ， 如 “坦克 ”"、“ 侵 略 ”、“ 战 机 ”等 就 是 维度 的 
名 称 ， 相 当 于 三 维 空间 的 x、y、z。 后 面 的 0.010, 0.003, 0.002 等 值 是 向 量 维度 的 值 ， 在 0 
和 1 区间 内 。 

当 有 一 篇 新 的 文章 要 进行 分 类 时 ， 同 样 进行 分 词 和 向 量化 ， 也 标记 成 向 量 和 词 频 的 形 
式 。 之 后 就 顺理成章 了 ， 就 是 向 量 和 向 量 求 余弦 相似 性 的 计算 了 。'“ 军 事 类 ”"、“ 体 育 类 ”"、' 经 
济 类 ”、“ 娱 乐 类 ”等 这 些 文章 类 别 各 自 都 有 一 个 原型 向 量 ， 新 的 文章 和 它们 逐个 比较 ， 和 
谁 相 似 性 越 高 ， 就 属于 谁 。 

余弦 相似 性 怎么 计算 呢 ? 来 看 以 下 公式 : 


S16 + SC Ter Sn 








cos(8) il 2 2 2 2 2 2 
Js 十 82 Hets, Ve tC, 


这 个 公式 和 在 第 13 章 里 接触 到 的 余弦 相似 性 的 计算 规则 非常 相似 ， 公 式 中 s 代表 原 
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型 向 量 ，c 代表 待 分 类 向 量 ，s 向 量 各 自 的 维度 是 *  ，sY>， 
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…，s，c 向 量 各 自 的 维度 是 c,， 


c，…，ce 最 后 cos(0) 越 接近 1 就 说 明 越 相似 ， 越 接近 0 就 说 明 越 不 相似 ， 注 意 这 里 面 没 
有 小 于 0 的 情况 。 
Rocchio 算法 还 有 一 种 改进 的 版 本 ， 在 这 个 版 本 里 ， 某 一 类 文章 不 仅 有 正 样本 计算 而 来 
的 原型 向 量 ( 正 向 量 )， 还 有 根据 负 样本 ( 非 本 类 文章 ) 计算 而 来 的 负 向 量 。 在 原型 向 量 计 
算 的 过 程 中 ， 和 希望 它 尽 量 靠 近 正 样本 而 远离 负 样 本 。 
在 做 所 有 的 文本 分 类 实验 之 前 ， 先 要 做 一 个 操作 ， 就 是 从 网 上 下 载 一 些 文本 作为 训 
练 样本 ， 在 这 里 选用 20Newsgroup 提供 的 文本 信息 。 它 的 官方 网 站 网 址 是 http://qwone. 
com/~jason/20Newsgroups/， 读 者 有 兴趣 可 以 再 尝试 访问 该 网 站 阅读 更 多 的 相关 信息 。 


from 
from 
from 
from 


Sklearn.datasets import fetch 20newsgroups 
Sklearn.feature extraction.text import CountVectorizer 
Sklearn.feature extraction.text import TfidfTransformer 
pprint import pprint 


newsgroups train = fetch 20newsgroups (subset-'train!) 
pprint(list(newsgroups train.target names)) 

420 个 主题 

['alt.atheism', 

'comp.graphics', 


'comp.os.ms-windows.misc', 
'comp.sys.ibm.pc.hardware', 
'comp.sys.mac.hardware', 


'comp.windows.x', 


'misc.forsale', 


'rxec. 
'rec. 
EEG, 
'rec. 


'Sci. 


'sci 


'sci. 


tsei 


'soc. 


autos', 
motorcycles', 
sport.baseball', 
sport .hockey', 
crypt', 


.electronics', 


med', 


.Space', 


religion.christian', 


'talk.politics.guns', 
'talk.politics.mideast', 
'talk.politics.misc', 
'talk.religion.misc'] 


# 这 里 选取 4 个 主题 


categories = ['alt.atheism', 'comp.graphics', 'sci.med', 


christian'] 


# 下 载 这 4 个 主题 里 的 文件 


twenty train = fetch 20newsgroups (subset-'train', categories-categories) 


8 文件 内 容 在 twenty train.data 这 个 变量 里 ， 现 在 对 内 容 进行 分 词 和 向 量化 操作 
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count vect = CountVectorizer() 
X train counts - count vect.fit transform(twenty train.data) 


8 接着 对 向 量化 之 后 的 结果 做 TF-IDF 转换 
tfidf transformer = TfidfTransformer() 
X train tfidf - tfidf transformer.fit transform(X train counts) 


Rocchio 的 示例 代码 如 下 : 


from sklearn.neighbors.nearest centroid import NearestCentroid 


4 现在 把 TF-IDF 转换 后 的 结果 和 每 条 结果 对 应 的 主题 编号 twenty train.target 放 入 分 类 器 中 进行 训练 


clf = NearestCentroid().fit(X train tfidf, twenty train.target) 


4 创建 测试 集合 ， 这 里 有 2 条 数据 ， 每 条 数据 一 行内 容 ， 进 行 向 量化 和 TF-IDF 转换 
docs new = ['God is love', 'OpenGL on the GPU is fast'] 

X new counts - count vect.transform(docs new) 

X new tfidf - tfidf transformer.transform(X new counts) 


# 预测 
predicted - clf.predict(X new tfidf) 


8 打印 结果 
for doc, category in zip(docs new, predicted): 
print ('%r => $s' % (doc, twenty train.target names[category])) 


Rocchio 算法 的 缺陷 是 很 明显 的 ， 它 做 了 两 个 假设 ， 使 得 它 的 分 类 能 力 打 了 很 大 的 
折扣 。 

假设 一 : 一 个 类 别 的 文档 仅仅 聚集 在 一 个 质心 的 周围 ， 实 际 情况 往往 不 是 如 此 。 

假设 二 : 训练 数据 是 绝对 正确 的 ， 因 为 它 没有 任何 定量 衡量 样本 是 否 含有 噪声 的 机 制 ， 
错误 的 分 类 数据 会 影响 质心 的 位 置 。 


14.2.2 ”朴素 贝 叶 斯 算法 

朴素 贝 叶 斯 算法 关注 的 是 文档 属于 某 类 别 的 概率 。 文 档 属于 某 个 类 别 的 概率 等 于 文档 
中 每 个 词 属于 该 类 别 的 概率 的 综合 表达 式 。 而 每 个 词 属于 该 类 别 的 概率 又 在 一 定 程度 上 可 
以 用 这 个 词 在 该 类 别 训练 文档 中 出 现 的 次 数 ( 词 频 信息 ) 来 粗略 估计 ， 因 而 使 得 整个 计算 过 
程 可 行 。 使 用 朴素 贝 叶 斯 算法 时 ， 在 训练 阶段 的 主要 任务 就 是 估计 这 些 值 。 

所 以 前 两 步 仍然 是 分 词 和 向 量化 。 

贝 叶 斯 概率 公式 如 下 : 





ap as ba 


2 P(x|D)PD,) 








上 式 是 完整 的 贝 叶 斯 概率 公式 ， 简 写 的 朴素 贝 叶 斯 概率 公式 如 下 : 
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P(A|B)P(B)-P(B|4)P(A) 

上 式 指 的 是 在 全 样本 空间 里 ， 独 立 事件 下 发 生 的 概率 乘 以 在 好 发 生 的 情况 下 发 生 4 的 
概率 ， 等 于 独立 事件 发 生 4 的 概率 乘 以 在 A 发 生 的 情况 下 发 生 B 的 概率 。 

如 果 研 究 两 个 事件 的 条 件 概率 关系 用 这 个 简化 版 的 公式 肯定 是 一 目 了 然 的 ,那么 在 文 
章 分 类 里 怎么 用 呢 ? 

首先 ， 如 果 能 够 统计 某 个 词 在 某 类 别 文章 中 出 现 的 概率 ， 就 用 P(Dx) 来 表示 ， 如 x 是 
“军事 类 ” (肯定 还 有 ?了 分 类 “体育 类 ”，z 分 类 “经 济 类 ”等 )，D 表示 某 一 个 词 的 词 频 ， 如 
D, 表示 “雷达 ”的 词 频 ， 那 么 PLD,lz) 就 表示 “军事 类 ”文章 中 出 现 “雷达 ”的 概率 。 除 了 
“雷达 ”以 外 ， 肯 定 还 有 很 多 其 他 词 向 量 的 词 频 统计 ， 所 以 就 有 很 多 的 P(Djly)、P(Dj|z) 来 分 
别 表示 它们 在 “体育 类 ”或 “经 济 类 ”文章 中 的 每 个 词 的 词 频 。 

反 过 来 再 看 ， 还 是 以 “雷达 ”这 个 词 为 例 ， 恺 怕 不 止 出 现在 “军事 类 ”的 文章 中 ， 可 
能 也 出 现在 其 他 小 说 或 者 广告 、 科 普 读物 里 。 那 么 “雷达 ”出 现在 “军事 类 "、“ 体 育 类 "、' 既 
济 类 ”文章 中 的 概率 用 P(x|D,)、P(y|D1)、P(z|D1) 来 表示 ， 如 有 10 000 篇 “军事 类 ”文章 ， 
其 中 有 500 篇 提 到 了 雷达 ， 那 P(x|D,) 就 是 0.05 ; 除 此 之 外 ， 也 可 以 求 出 每 一 个 P(x|D))、 
POID)、P(GzlD) 等 。 

总 结 来 说 ， 步 又 如 下 。 

(1 ) 对 训练 文章 进行 分 词 和 向 量化 。 

( 2) 对 所 有 文章 类 别 计算 PO POD POI 等 。 

(3) 对 待 分 类 的 文章 进行 分 词 和 向 量化 。 

(4) 用 待 分 类 文章 的 词 向 量 中 的 每 个 词 计算 PED), POD), PED) 等 。 

需要 强调 的 是 ，P(x|D,)) 可 不 是 计算 一 个 值 ， 而 是 计算 整个 词 向 量 中 所 有 的 词 ， 如 果 词 
HEA 1 000 个 元 素 , 那么 D; 就 是 D 到 Duo， 这 1 000 个 词 都 要 进行 计算 。 

(5) 计算 概率 ， 看 看 待 分 类 文章 属于 哪个 类 型 的 文章 概率 最 大 。 

这 个 部 分 计算 的 时 候 要 注意 计算 技巧 ， 如 计算 一 个 完整 的 词 向 量 D, 到 D, q 属于 x 类 
的 概率 ， 公 式 如 下 : 

P(Djx)-P(D, x) PCD,|x)-** PCD, olx) 

解释 一 下 ，P(Djlx) 中 出 现 完整 词 向 量 D, 所 有 元 素 的 概率 就 是 出 现 每 个 词 的 概率 相 乘 ， 
这 个 思考 方式 跟 扔 硬币 没 区 别 。 

对 P(D/x)P(x)-P(x|D))PCD)) 的 含义 也 就 好 理解 了 吧 ， 我 们 把 它 做 个 变形 : 
P(D, | x) (x) 

P(D,) 


P(x|D)) 就 是 要 求 的 ， 完 整 的 词 向 量 D 最终 属 于 x 文章 分 类 的 概率 。 
PD) 可 以 设 为 1， 因为 对 于 已 经 拿 到 的 待 分 类 文本 ， 所 有 的 词 频 发 生 概率 就 已 经 是 1 了 。 
P(Djx) 的 含义 我 们 刚刚 解释 过 。 
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P(x) 是 所 有 训练 文章 中 x 类 文章 出 现 的 概率 。 如 果 每 个 类 别 的 文章 都 用 一 样 多 的 数量 
来 训练 ， 如 “军事 类 ”、“ 体 育 类 ”、“ 经 济 类 ”各 100 篇 ， 那 所 有 的 Po). PO). Pc) 值 都 一 


100 m1 : . Xe ELE. ES 3o cu 
FÉ, 部 起 3° 在 这 个 公式 里 ， 所 有 的 类 别 最 后 都 是 互相 比 P(x|D))， 个 分 


类 的 PED) 越 大 就 说 明 这 篇 文章 属于 这 个 分 类 的 概率 越 大 ， 每 个 分 类 P(x) 都 一 样 大 的 情况 
下 ， 那 就 可 以 都 不 乘 了 ， 直 接 化 简 成 P(x|D))=P(Djx)。 要 记 住 ， 必 须 是 所 有 类 别 的 文章 训练 
样本 的 数量 一 样 多 的 时 候 才 能 做 这 个 简化 。 

在 前 面 介绍 朴素 贝 叶 斯 分 类 的 时 候 提 到 过 ， 在 Python Scikit-learn 库 中 支持 高 斯 朴素 贝 
叶 斯 、 多 项 式 朴 素 贝 叶 斯 和 伯 努 利 朴 素 贝 叶 斯 3 种 朴素 贝 叶 斯 分 类 算法 。 在 这 里 使 用 多 项 
式 朴素 贝 叶 斯 来 做 文章 分 类 ， 完 整 的 例子 如 下 : 

# 在 Scikit-learn 里 提供 了 几 种 贝 叶 斯 分 类 ， 其 中 多 项 式 贝 叶 斯 最 适合 做 文本 分 类 


from sklearn.naive bayes import MultinomialNB 


# 现在 把 TF- IDE 转换 后 的 结果 和 每 条 结果 对 应 的 主题 编号 twenty_ train.target 放 入 分 类 器 中 进行 训练 
clf = MultinomialNB().fit(X train tfidf, twenty train.target) 





# 创建 测试 集合 ， 这 里 有 2 条 数据 ， 每 条 数据 一 行内 容 ， 然 后 进行 向 量化 和 TF-IDF 转换 
docs new = ['God is love', 'OpenGL on the GPU is fast'] 

X new counts - count vect.transform(docs new) 

X new tfidf - tfidf transformer.transform(X new counts) 


# 预测 
predicted = clf.predict(X new tfidf) 


# 打印 结果 
for doc, category in zip(docs new, predicted): 
print('$r => $s' % (doc, twenty train.target names [category] )) 


关于 分 类 的 问题 可 以 扩展 一 下 ， 每 篇 文章 的 分 类 可 能 不 是 只 有 一 个 “军事 类 "、 人 体育 类 " 
等 类 别 ， 而 可 能 是 多 个 标签 组 合 描述 的 主题 性 或 情绪 性 分 类 说 明 ， 例 如 ， 在 一 篇 文章 里 可 
以 同时 标 出 “军事 ”"、“ 科 技 ”"、“ 颂 扬 ” 等 标签 ， 也 可 以 标 出 “经 济 "、“ 局 势 "、“ 翡 观 ” 等 标 
签 。 对 于 主题 性 或 情绪 性 的 分 类 ， 利 用 朴素 贝 叶 斯 算法 同样 可 以 进行 分 类 标识 ， 这 样 在 文 
章 分 类 时 文章 所 赋予 的 分 类 也 更 加 丰富 。 


14.2.3 ” K- 近邻 算法 

K- 近邻 算法 英文 全 称 为 K-Nearest Neigbours， 也 有 的 资料 上 会 写作 KNN 算法 。 

K- 近邻 算法 的 思路 是 ， 没 有 必要 去 总 结 原型 向 量 ， 只 需 原始 的 训练 样本 ， 这 些 样 本 具 
有 最 基础 最 原始 而 且 准 确 的 向 量 信息 ， 因 此 此 算法 产生 的 分 类 器 也 叫做 “基于 实例 ”的 分 
prom 

流程 如 下 ， 拿 到 训练 的 文章 样本 之 后 ， 对 每 个 样本 都 进行 分 词 和 向 量化 。 然 后 在 给 定 


wwaibbt.com [1 E D] B] EL D] D] 


226 4 白话 大 数据 与 机 器 学 习 


新 的 待 判定 文章 后 ， 算 法 对 该 文档 也 进行 分 词 和 向 量化 ， 不 同 的 地 方 在 后 面 的 操作 上 。 这 
个 待 判定 的 文章 的 向 量 会 和 所 有 训练 的 样本 进行 向 量 特征 比 对 ， 也 就 是 相似 度 比 对 ， 这 样 
会 得 到 它 与 所 有 训练 样本 的 相似 度 排名 列表 。 把 玉 定 为 一 个 变量 ， 从 这 个 列表 中 找 出 相似 
度 最 高 的 开篇 文章 ， 根 据 这 天 篇 文章 的 类 别 分 布 投票 决定 这 篇 待 判定 的 文章 更 像 哪 种 分 类 。 

这 个 方法 看 上 去 很 简单 ， 其 实 根本 就 没有 模型 训练 的 成 分 在 里 面 ， 但 是 还 是 一 分 为 二 
地 来 看 这 种 方法 。 

它 的 优点 : 因为 这 种 方法 可 以 克服 Rocchio 算法 中 无 法 处 理 线性 的 缺陷 ， 同 时 “训练 
成 本 ”也 非常 低 一 一 其 他 分 类 方法 进行 算法 和 模型 调整 时 要 重新 对 所 有 的 分 类 文本 进行 全 
局 计算 ， 而 这 种 算法 只 需要 对 某 个 已 有 的 训练 文档 进行 删除 ， 或 者 加 入 新 的 训练 文档 ， 这 
个 训练 的 分 类 规则 就 同时 发 生 了 变化 。 

它 的 缺点 : 也 是 非常 致命 的 ， 就 是 计算 成 本 比较 高 。 如 果 要 计算 一 篇 待 分 类 的 文章 ， 就 
要 将 它 和 所 有 的 训练 样本 进行 比较 。 如 果 有 100 个 文章 分 类 ， 每 个 文章 分 类 有 100 篇 训练 文 
章 ， 那 就 是 10 000 AGIT SE, 而且 每 分 类 一 篇 文章 就 要 进行 10 000 次 计算 , 计算 成 本 非常 高 。 

下 面 给 出 应 用 的 代码 以 供 参 考 : 


from sklearn.neighbors import KNeighborsClassifier 


# 找 出 相似 度 最 高 的 15 篇 文章 
4 现在 把 TF-IDF 转换 后 的 结果 和 每 条 结果 对 应 的 主题 编号 twenty train.target 放 入 分 类 器 中 进行 训练 
clf = KNeighborsClassifier(15).fit(X train tfidf, twenty train.target) 


s 创建 测试 集合 ， 这 里 有 2 条 数据 ， 每 条 数据 一 行内 容 ， 然 后 进行 向 量化 和 TF-IDF 转换 
docs new = ['God is love', 'OpenGL on the GPU is fast'] 

X new counts - count vect.transform(docs new) 

X new tfidf - tfidf transformer.transform(X new counts) 


# 预测 
predicted = clf.predict(X new tfidf) 


8 打印 结果 
for doc, category in zip(docs new, predicted): 
print('$r => $s' % (doc, twenty train.target names [category] )) 


14.2.4 ”支持 向 量 机 SVM 算法 

支持 向 量 机 在 第 10 章 已 经 介绍 过 。 在 该 章节 中 讨论 的 是 一 种 通用 性 的 线性 分 类 器 构造 
原则 ， 不 管 有 多 少 维 的 数据 ， 只 要 发 现 线性 不 可 分 ， 就 可 以 映射 到 高 一 维度 的 空间 去 构造 
一 个 超 平面 。 

在 文章 分 类 里 ， 同 样 可 以 应 用 这 样 的 方式 ， 只 要 已 经 理解 了 SVM 的 解 题 思路 ， 理 解 它 
在 文章 分 类 中 的 应 用 就 不 会 困难 。 

前 面 说 过 ， 拿 到 文章 以 后 ， 要 进行 分 词 和 向 量化 ， 向 量化 之 后 ， 一 篇 文章 就 会 变 成 一 
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个 几 千 维 或 者 几 万 维 的 向 量 。 这 些 向 量 在 空间 上 的 划分 和 g(v)=wv+b 这 样 的 超 平面 用 法 一 
样 ， 几 乎 没有 任何 区 别 ， 只 是 v 的 维度 会 非常 多 而 已 。 

总 体 来 说 ，SVM 分 类 器 的 文本 分 类 效果 很 好 ， 可 以 认为 是 最 好 的 分 类 器 之 一 。 它 有 
很 多 优点 ， 如 通用 性 较 好 ， 分 类 精度 高 ， 分 类 速度 快 ， 分 类 速度 与 训练 样本 个 数 无 关 ， 在 
查 准 和 查 全 率 (精度 和 召回 率 ) 方面 都 优 于 KNN 及 朴素 贝 叶 斯 方法 。 但 是 它 也 有 和 缺点， 如 
SVM 训练 速度 很 大 程度 上 受到 训练 集 规模 的 影响 ， 计 算 开 销 比较 大 ， 针 对 SVM 的 训练 速 
度 问 题 ， 研 究 者 提出 了 很 多 改进 方法 ， 包 括 Chunking 方法 、Osuna 算法 、SMO 算法 和 交互 
SVM 等 。 

前 面 在 介绍 SVM 一 节 中 提 过 , SVC Br c EE KRL linear (PEIZ KZ), poly (多 
项 式 核 函数 )、rbf CES In] E EZ PRO), sigmoid (神经 元 激活 核 函 数 )、precomputed ( 自 定义 核 
PRX. Hop, fep AEEZ PRX rbf 和 线性 核 函 数 linear 是 人 们 在 生产 生活 中 用 得 最 频繁 的 两 
种 核 函 数 。 对 于 文章 分 类 ， 一 般 推 荐 使 用 线性 核 函 数 linear， 这 种 核 函 数 计算 效率 极 高 ， 对 
文章 分 类 的 准确 性 也 非常 高 。 

这 里 也 给 出 一 个 用 SVM 算法 进行 文章 分 类 的 例子 : 


from sklearn import svm 


# 现在 把 TF-IDF 转换 后 的 结果 和 每 条 结果 对 应 的 主题 编号 twenty_train.target 放 入 分 类 器 中 进行 训练 
# 这 里 使 用 线性 支持 向 量 分 类 1inear， 对 文章 分 类 效果 比较 好 
clf = svm.SVC(kernel-'linear').fit(X train tfidf, twenty train.target) 





# 创建 测试 集合 ， 这 里 有 2 条 数据 ， 每 条 数据 一 行内 容 ， 然 后 进行 向 量化 和 TF-IDF 转换 
docs new = ['God is love', 'OpenGL on the GPU is fast'] 

X new counts - count vect.transform(docs new) 

X new tfidf - tfidf transformer.transform(X new counts) 


# 预测 
predicted = clf.predict(X new tfidf) 


8 打印 结果 
for doc, category in zip(docs new, predicted): 
print('$r => $s' % (doc, twenty train.target names [category])) 


14.3 ”小结 


由 于 篇 幅 有 限 ， 本 章 只 介绍 了 文本 分 类 方面 的 内 容 ， 文 本 分 类 是 网 站 进行 舆情 分 析 、 
偏好 猜测 等 行为 的 重要 手段 ， 读 者 掌握 基本 方法 即 可 。 

请 注意 ， 一 般 来 说 ， 文 章 越 短 分 类 的 难度 越 大 ， 准 确 性 越 差 。 这 赁 直觉 也 能 感觉 出 来 ， 
一 名 很 短 的 话 肯 定 是 能 够 在 很 多 类 型 的 文章 中 都 有 机 会 读 到 的 ， 那么 这 样 的 句子 是 几乎 没 
有 办 法 去 判断 主旨 内 容 的 ， 要 想 知道 主旨 内 容 还 是 要 通过 大 量 的 上 下 文 。 
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人 类 对 于 人 工 智能 领域 的 研究 随 着 其 他 各 领域 尤其 是 信息 科学 的 进步 而 快速 进步 。 现 
在 在 工厂 生产 线 上 看 到 的 机 器 人 其 实 是 比较 “弱智 ”的 机 器 人 ， 因 为 它 基本 只 能 根据 人 给 
它 的 固定 指令 去 做 固定 的 动作 组 合 ， 所 以 称 它 为 “机 械 手 臂 ” 也 许 更 为 贴切 。 而 要 想 进行 
比较 深层 的 突破 ， 旧 的 算法 科学 恐怕 是 乏善可陈 。 

当 人 们 意识 到 人 脑 的 工作 方式 与 数字 计算 机 有 着 极 大 不 同时 ， 人 们 就 逐渐 开始 研究 “人 
工 神 经 网 络 ”( Artificial Neural Network, ANN), 希望 能 够 从 仿生 学 的 角度 给 这 种 研究 带 来 
新 的 动力 。 所 谓 “ 人 法 地 ， 地 法 天 ， 天 法 道 ， 道 法 自然 >”。 从 自然 中 学 习 和 寻求 规律 有 时 
比 竖 想 要 更 有 智慧 。 

人 们 从 研究 蝙蝠 获得 了 发 明 雷 达 的 灵感 ， 通 过 研究 鱼 鱼 获 得 了 发 明 潜 水 艇 的 灵感 。 人 
们 同样 期 望 从 研究 人 的 神经 网 络 中 获得 更 多 高 级 、 智 能 化 的 数据 处 理 思 路 和 经 验 。 

人 脑 是 人 们 到 目前 为 止 发 现 的 ， 最 令 人 叹为观止 的 信息 处 理 系 统 了 。 人 脑 在 加 减 乘除 
方面 的 计算 速度 上 可 能 赶不上 很 多 单片机 ， 但 是 在 很 多 特殊 场景 的 运算 中 却 是 高 级 计算 机 
无 法 比拟 的 ， 如 模式 识别 (声音 识别 、 图 像 识别 等 )。 


15.1 人 的 神经 网 络 


大 脑 是 人 的 神经 最 为 关键 和 核心 的 部 分 ， 也 同样 是 所 有 疹 椎 动物 门 的 动物 最 宝贵 的 “ 财 
产 ” 。 人 类 产 养 各 种 宠物 ， 如 狗 或 猫 ， 条 件 比 较 富裕 的 人 还 会 拳 养 马 、 记 等， 主要 原因 也 
是 由 于 这 类 动物 更 加 通 人 性 、 聪 明 、 互 动感 好 ， 容 易 与 人 的 交流 形成 配合 。 也 有 一 些 养 鸟 、 
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养 鱼 的 ， 主 要 是 为 了 欣赏 鸟 婉转 的 鸣叫 声 和 鱼 奇 幻 的 外 形 。 猎 奇 的 宠物 主 可 能 会 去 类 养 蜥 
蝎 、 蚂 蚁 等 ,但 十 有 八 九 不 是 因为 它们 聪明 。 这 些 无 一 例外 ， 都 是 消 椎 动物 门 的 动物 ， 都 
有 大 脑 。 

通过 大 量 的 解剖 研究 ， 人 们 逐渐 对 神经 网 络 的 组 成 原理 有 了 更 多 的 认识 ， 并 开始 尝 i 
着 解读 神经 网 络 的 奥秘 所 在 。 

现在 流通 的 资料 里 ， 关 于 人 体 神 经 元 数量 的 估算 还 是 莫衷一是 ， 但 是 有 一 个 数字 大 家 
基本 认可 ， 即 人 的 大 脑 皮层 里 有 神经 元 约 140 亿 个 ， 人 的 全 身 有 数 百 亿 到 上 千 亿 个 神经 元 。 

神经 网 络 有 以 下 几 个 非常 优秀 的 特点 。 

C1) 大 规模 并 行 分 布 式 结构 。 

(2) 神经 网 络 的 学 习 能 力 以 及 由 此 而 来 的 泛 化 能 力 。 

泛 化 这 一 点 很 重要 ， 它 是 指 在 遇 到 一 些 没 有 在 训练 中 遇 到 的 数据 时 仍然 可 以 得 到 合理 
的 输出 ， 这 一 点 在 第 8 章 等 章节 同样 提 到 过 。 

具备 这 两 种 强大 的 信息 处 理 能 力 让 神经 网 络 可 以 为 一 些 当 前 难以 处 理 的 复杂 问题 找到 
一 些 好 的 近似 解 。 


15.1.1 神经 网 络 结构 

人 自身 是 怎么 感受 到 “快乐 ”这 种 情绪 的 ? 可 以 认为 ， 这 就 是 一 种 极 复杂 的 计算 过 程 。 

研究 表示 ， 人 类 感受 到 的 快乐 是 由 脑 神经 元 之 间 通 过 多 巴 胺 进行 信息 传递 来 获得 的 。 

瑞典 人 阿尔 维 德 . 卡尔 森 ( Arvid Carlsson). 由 于 确定 多 巴 胺 为 脑 内 信息 传递 者 的 角色 
获得 了 2000 年 诺 贝 尔 医学 奖 。 

大 量 的 多 巴 胺 能 够 让 人 兴奋 、 快 乐 ， 而 缺少 多 巴 胺 的 人 通常 情绪 低落 ， 甚 至 会 邻 人 失 
去 控制 肌肉 的 能 力 ， 严 重 会 令 病人 的 手脚 不 自主 地 震颤 或 导致 帕 金 森 氏 症 。 

让 人 产生 多 巴 胺 的 行为 有 很 多 ， 如 吃 甜 食 、 适 度 运 动 
等 。 而 令 人 谈 虎 色 变 的 毒品 通常 有 着 极 强 的 多 巴 胺 “制造 ”能 
力 一 一 其 实 是 让 细胞 里 的 多 巴 胺 存量 大 量 释放 出 来 ， 让 人 在 短 
时 间 内 产生 极 大 的 快感 。 

多 巴 胺 的 分 子 结构 如 图 15-19 所 示 。 多 巴 胺 的 化 学 式 如 下 : 

C,H,(OH),- CH;-CH;-NH, 

这 个 化 学 式 很 复杂 ， 在 计算 机 二 进 制 系统 里 找 不 到 能 对 其 
模拟 得 惟妙惟肖 的 传递 介质 ， 二 进 制 系统 里 只 有 0 和 1 这 种 存 
储 和 传输 介质 ， 更 别 说 在 神经 元 细胞 内 部 的 “计算 ”是 怎么 样 
的 计算 了 ， 更 让 人 提 摸 不 透 的 是 让 我 们 产生 快感 的 计算 是 怎么 做 的 ， 我们 只 能 在 有 限 的 认 
识 内 对 这 种 算法 进行 模拟 。 











图 15-1 多 巴 胺 


O 图 片 来 源 于 百度 地 图 。 
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人 的 神经 细胞 如 图 15-2 所 示 ， 枝 枝 权 权 很 多 ， 远 远 看 上 去 一 边 比较 粗大 一 边 比 较 纤 
细 。 最 上 端 粗大 的 一 边 就 是 细胞 体 的 所 在 ， 细 胞 体 上 有 一 | ; 
些小 枝 权 叫做 树 突 ， 细 长 的 一 条 像 尾 巴 一 样 的 东西 叫做 轴 
突 。 不 同 细胞 之 间 通 过 树 突 和 轴 罕 相互 传递 信息 ， 它 们 的 
接触 点 叫 突 触 ， 准 确 地 说 是 由 一 个 细胞 的 轴 突 通过 突 触 将 
信号 传递 给 另 一 个 细胞 的 树 突 。 

神经 细胞 用 化 学 信号 传递 信息 ， 如 多 巴 胺 ， 其 过 程 非 
常 复杂 。 这 里 用 二 进 制 的 电子 计算 机 模拟 ,为 了 模拟 起 来 
比较 方便 ， 我 们 只 认为 大 脑 的 神经 细胞 有 两 种 状态 : 兴奋 
和 抑制 ，! 为 兴奋 ，0 为 抑制 。 

一 个 神经 元 兴奋 和 抑制 的 信号 是 由 这 个 神经 元 的 树 突 
来 影响 的 ， 因 为 树 突 是 接受 外 界 刺激 的 ， 刺 激 强烈 神经 元 
就 兴奋 ， 刺 激 不 强烈 神经 元 就 抑制 。 一 个 神经 元 有 很 多 的 | 
树 突 ， 这 些 树 突 其 实 可 以 同时 接受 多 个 其 他 神经 元 送 过 来 ”图 15-2 人 的 神经 细胞 ( 见 彩 插 ) 
的 刺激 信号 ， 这 些 信号 经 过 一 系列 复杂 的 计算 ,最 终 产 生 一 个 确定 的 兴奋 或 者 抑制 的 结果 ， 
这 些 突 触 之 间 有 的 是 通过 化 学 信号 进行 信号 传递 的 ， 有 的 是 通过 电信 号 进行 信号 传递 的 ， 
但 是 这 并 不 重要 ,反正 建 模 时 只 能 用 类 似 0 和 1 的 方式 来 模拟 。 

人 脑 的 神经 细胞 工作 频率 非常 低 ， 大 概 只 有 100 Hz， 这 比 20 世纪 80 年 代 末 流行 的 
286 计算 机 的 20 MHz 主 频 还 差 了 20 万 倍 。 但 是 神经 细胞 数量 巨大 ， 并 且 并 行进 行 独立 的 
处 理工 作 ， 这 让 大 脑 具 备 很 惊人 的 特点 ， 如 能 够 进行 高 效 的 无 监督 学 习 ， 模 式 识别 等 。 





15.1.2 ”结构 模拟 
既然 已 经 了 解 到 神经 元 的 工作 方式 ,不妨 设计 一 个 和 它 的 工作 方式 近似 的 电子 信号 处 





理 系统 ， 如 图 15-3 所 示 。 TS 
它 有 5 个 输入 的 树 突 (也 可 以 是 3、4 个 树 突 ， 也 可 以 
是 6 个 或 者 更 多 ， 这 里 设计 成 5 个 没有 特别 的 目的 )， 有 六 一 
一 个 轴 罕 ， 而 中 间 的 部 分 负责 进行 计算 。 当 5 个 树 突 输入 X 77, 
的 内 容 合适 时 ， 让 轴 突 输出 1 一 一 兴奋 ， 反 之 让 轴 突 输出 ^ 
0 一 一 抑制 。 可 以 让 每 个 树 突 上 的 输入 数字 做 加 和 来 模拟 这 ”图 15-3 由 神经 元 模拟 的 电子 信 
个 计算 兴奋 或 者 抑制 的 过 程 ， 每 个 刺激 都 是 0 或 1， 也 就 是 号 处 理 系统 


来 自 其 他 神经 元 细胞 的 刺激 ， 刺 激 的 值 为 x,。 为 了 让 树 突 上 的 刺激 有 所 区 别 ， 可 以 考虑 给 
每 个 树 突 输入 的 值 乘 以 一 个 权 值 ， 这 个 权 值 同样 是 一 个 [-1，1] 之 间 的 小 数 ， 权 值 标注 为 
Wio 后 面 如 果 不 做 说 明 ，w 的 取 值 就 是 在 [-1，1] KE, x; 就 是 0 或 1。 


设置 激励 函数 为 f(x) = ywx = wrx ， 作 为 整个 过 程 的 模拟 。 
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从 函数 的 定义 域 上 看 ，ftx) 的 范围 应 该 在 [-5，5] 之 间 。 可 以 记 作 前 面 写 的 连 加 和 的 形 
式 ， 也 可 以 记 作 后 面 写 的 矩阵 内 积 的 形式 ， 含 义 是 完全 一 样 的 ， 看 过 第 10 章 的 读者 尤其 不 
会 陌生 。 

整个 函数 产生 的 结果 最 终 还 会 继续 去 刺激 其 他 函数 一 一 毕竟 要 连 成 网 络 ， 所 以 还 要 让 
轴 突 产生 的 输出 函数 为 1 或 0。 所 以 在 最 终 输 出 之 前 还 需要 一 个 环节 : 


1 f(x)z0 


EET A fG)«0 


对 ftx) 进行 一 下 加 工 ， 如 果 相 加 的 和 大 于 等 于 0 就 认为 是 兴奋 状态 ， 如 果 小 于 0 就 认 
为 是 抑制 状态 。 

好 了 ， 如 果 到 这 里 你 还 是 觉得 一 头 雾 水 ,那么 我 只 能 说 “ 咽 ， 真 的 很 正常 ， 想 当年 都 
是 这 么 过 来 的 。” 我 们 现在 手 里 有 了 一 个 世界 上 最 弱 的 神经 网 络 细 胞 ， 注 意 ， 真 的 只 是 一 个 
细胞 而 已 。 下 面 来 试 一 下 ， 看 这 个 细胞 能 不 能 完成 机 器 学 习 的 工作 。 


15.1.3 训练 与 工作 

和 一 般 的 分 类 算法 一 样 ， 使 用 人 工 神经 网 络 进行 分 类 时 同样 需要 先进 行 训 练 ， 即 便 是 
一 个 神经 元 也 是 要 训练 的 。 

训练 过 程 大 致 如 下 。 

CI) 初始 化 权重 。 随 机 设置 w 的 大 小 ， 即 设置 初始 的 每 个 树 突 上 的 权重 。 先 给 定 一 个 
任意 值 ， 如 都 是 1。 

(2) 训练 。 给 定 输入 各 x 的 大 小 和 对 应 的 output 输出 值 ， 这 是 一 组 样本 。 需 要 给 定 很 
多 组 样本 ， 这 就 是 学 习 的 过 程 。 

仔细 看 一 下 这 个 过 程 : 


ywxtw xtwxtwarat Wsxs 


| f(y)z0 
0 f(y)«0 


有 没有 觉得 特别 眼熟 。 非 常 像 回归 对 不 对 ? 知道 自 变 量 ， 知 道 函 数值 ， 用 计算 的 方法 
算出 这 些 待 定 的 系数 。 没 错 ， 这 个 跟 回归 真 的 就 是 如 出 一 统 。 在 8.1 节 曾 经 讨论 过 用 最 小 
二 乘法 来 计算 待定 的 系数 ， 那 么 在 现在 这 个 例子 里 能 不 能 用 同样 或 者 类 似 的 办 法 来 解决 问 
题 呢 ? 答案 是 肯定 的 ， 只 是 这 一 类 回归 不 是 线性 关系 的 ， 它 在 回归 分 析 中 是 有 确切 的 名 词 
定义 的 ， 这 种 二 项 分 布 形 的 回归 叫 作 逻辑 回归 ( Logistic Regression) . 3 8 E Ja FIKRI 77 5 
比较 单纯 ， 就 如 同 我 们 在 刚刚 的 例子 说 的 这 样 ， 有 一 些 输入 的 自 变量 ， 分 类 结果 只 有 两 类 ， 
即 针对 要 分 类 的 目标 ， 要么 是 这 一 类 ， 要 么 不 是 这 一 类 。 

除 此 之 外 还 像 什 么 ? 像 不 像 在 支持 向 量 机 SVM 里 看 到 的 超 平面 的 定义 ? 


output — | 
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SVM 算法 是 为 了 寻找 一 个 g(v)=wv+b 的 超 平面 ， 其 中 v 就 是 一 个 n 维 的 向 量 , n 可 以 是 
1 到 无 穷 的 任何 一 个 整数 ， 其 实 当 nn 等 于 5 时， 就 与 ywixit+wxytwyxtwaxatwsxs 的 形式 很 相 
近 ， 只 是 这 个 g(v) 展开 以 后 是 ywixrtwxeztwyeytweestwsxstb， 变 量具 体 用 x 还 是 用 y、z 来 表 
示 并 不 重要 ， 关 键 是 它们 在 处 理 问题 上 的 逻辑 ， 仔 细 看 看 ， 思 路 都 是 尝试 找 一 个 “ 超 平面 ”。 

以 二 维 空间 上 的 超 平面 2x+5y+4=0 为 例 ， 经 过 变形 就 成 了 ) 王 -0.4x-0.8。 其 实 也 就 是 
SC)=2xi+5x+4， 如 图 15-4 所 示 。 





图 15-4 y--0.4x-0.8 的 网 形 ， 


三 维 空间 上 的 超 平面 4xty-2z+6=0 经 过 变形 就 成 了 z=2x+0.5y+3。 其 实 也 就 是 
g(v)-4xytx,—x4*6, lE] 15-5 所 示 。 





I 起 始 值 : 结束 值 ; 
iz |-32.4449]32 4449) 


图 15-5 z-2x40.5y43 的 图 形 


y—WX FW yx-Wyx Ew xs Ewsxsb 公式 里 的 b 这 一 项 ， 可 以 这 么 理解 ， 完 全 是 在 超 平面 斜 
率 定好 后 为 了 调整 截 距 而 设置 的 ，b 恒 等 于 0 的 情况 下 就 是 让 超 平面 永远 通过 原点 。 所 以 在 
不 同 的 资料 上 会 看 到 两 种 表达 方式 ， 而 且 后 者 更 常见 : 


JJ 二 WIIXITW2X2 十 W3X3 十 W4X4 十 W)5X5S 
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J-WyXpEWXy FW; X; +wx HWX +b 
这 种 单 细 胞 人 工 神 经 网 络 一 般 用 来 处 理 手写 识别 、 垃 圾 邮件 分 类 、 人 金融 欺诈 行为 、 网 
络 注册 用 户 是 否 真 实 等 问题 。 
具体 的 方式 在 10.5 节 已 经 进行 过 比较 详细 的 讨论 了 ， 用 SVM 算法 去 解决 甚至 更 好 ， 
因为 它 最 厉害 的 地 方 是 能 够 映射 到 高 维 去 解决 线性 不 可 分 的 问题 。 
神经 网 络 和 SVM 解决 问题 的 思路 的 不 同 之 处 在 于 ， 在 线性 不 可 分 时 ，SVM 会 映射 到 
高 维 去 划分 超 平 面 ; 而 神经 网 络 是 增加 输入 的 变量 、 网 络 的 层次 、 输 出 层 。 


15.2 FANN 库 简 介 


在 人 工 神 经 网 络 算法 的 编写 过 程 中 ， 可 以 考虑 自己 一 行 一 行 去 做 代码 实现 ， 也 可 以 使 
用 开源 的 人 工 神经 网 络 算法 库 ， 以 把 精力 集中 在 建 模 工 作 上 。FANN 库 就 是 众多 人 工 神经 
网 络 库 之 一 。 

FANN 是 一 个 开源 的 神经 网 络 模型 库 ， 全 称 是 Fast Artificial Neural Network Library. 
它 是 用 C 语言 编写 的 ， 运 行 高 效 ， 而 且 可 以 支持 模拟 单 层 、 多 层 的 各 种 全 连接 和 半 连 接 网 
络 。2.1 版 本 以 上 的 FANN 支持 包括 C4, Java, PHP, Python 等 超过 20 种 计算 机 语言 的 黑 
盒 式 调用 ， 使 用 非常 方便 。 它 最 强大 的 特性 之 一 是 支持 多 种 GUI， 这 种 用 户 界 面 的 友好 型 
也 让 它 颇 受 欢迎 。 

图 15-6° 用 来 做 网 络 搭建 的 FANN Tool 1.2 的 界面 。 


won dest dr 
E Hd Layer 1 16 E WA 


Tas mor: -[FAMN TRAM RPROP zm 





图 15-6 FANN Tool 1.2 


O 3k[1 FANN 官方 网 站 . 
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另 一 种 FANN 官网 推荐 的 专门 做 神经 网 络 搭建 的 可 视 化 工具 是 Agiel Neural Network, 


如 图 15-79 所 示 。 
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图 15-7  Agiel Neural Network 


FANN 的 中 文 资 料 少 得 可 怜 ， 要 想 做 更 多 的 了 解 还 是 推荐 前 往 其 官方 网 站 阅读 英文 原 
网 站 地 址 : http://leenissen.dk/fann/s 

FANN 的 特性 如 下 ， 后 面 将 会 有 基于 FANN 库 做 算法 实现 的 例子 。 

口 使 用 C 语言 编写 的 多 层 人 工 神经 网 络 库 。 

2 反 向 传播 训练 。 

Q 进化 型 拓扑 训练 ， 可 动态 建立 并 训练 人 工 神经 网 络 。 

Q 极 易 使 用 。 

口 极其 快速 〈 据 称 比 其 他 的 人 工 神经 网 络 框架 快 150 倍 )。 

O 极 强 的 通用 性 ， 可 覆盖 与 兼容 极 多 的 参数 维度 场景 。 

口 文档 完备 。 

口 跨 平台 性 良好 ， 支 持 Linux 和 UNIX 以 及 Windows 平台 使 用 的 dll 库 。 
口 实现 多 种 不 同 动态 函数 。 

Q 可 以 便捷 地 存 取 完整 人 工 神经 网 络 模 型 。 





口 有 多 种 易 用 的 例子 。 


口 可 以 在 模型 中 兼容 浮 点 型 和 整 型 变量 。 


口 具有 极 好 的 缓存 优化 。 


Q 开源 并 遵从 LGPL 协议 。 


O 图 片 来 源 于 sourceforge.net。 
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Q 具有 易 用 性 的 训练 数据 框架 。 
口 具有 图 形 界 面 。 

Q 支持 多 种 语言 调用 。 

口 应 用 范围 广泛 。 





15.3 ”常见 的 神经 网 络 


神经 网 络 模型 发 展 到 今天 有 了 很 多 变种 ， 据 说 已 有 不 少 于 70 种 的 不 同 神经 网 络 模型 。 
常见 的 人 工 神 经 网 络 模型 有 以 下 几 种 。 

C 感知 器 网 络 ( Perceptron)， 在 前 面 接触 到 的 “ 单 细 胞 ”的 神经 网 络 (应 该 叫 神经 元 更 
合适 ) 就 是 感知 器 网 络 最 简单 的 形式 。 

T 按 误差 逆 传 播 算法 训练 的 多 层 前 馈 网 络 (Back Propagation, BP 神经 网 络 )。 

口 自 组 织 特征 映射 神经 网 络 (Self-Organizing Feature Map, SOM). 

口 Hopfield 网 络 。 

Q 玻 尔 效 曼 机 (Boltzmann Machine) 。 

a 卷 积 神经 网 络 (Convolutional Neural Network, CNN). 

还 有 很 多 其 他 的 网 络 模型 ， 形 式 各 异 ， 偏 重 也 不 同 ， 适 应 场景 也 不 尽 相 同 。 





15.4 BP 神经 网 络 


BP 神经 网 络 是 指 误差 道 传播 算法 训练 的 多 层 前 馈 网 络 ， 听 起 来 名 字 很 甩 嗪 ， 但 是 构建 
的 思路 很 简单 。 

如 图 15-8 所 示 为 两 层 的 BP 神经 网 络 ( 只 有 隐 含 层 和 输出 层 是 参与 计算 和 权 值 调 整 的 
节点 层 )， 当 然 可 以 有 更 多 的 层次 、 更 多 的 节点 ， 这 里 只 是 示意 性 介绍 构建 思路 。 








输入 层 UE 输出 层 
图 15-8 ”两 层 的 BP 神经 网 络 
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15.4.1 ”结构 和 原理 

在 “ 单 细胞 ”的 神经 网 络 里 ， 实 际 上 只 有 一 层 ， 即 最 后 的 输出 层 。 在 图 15-8 中 有 两 层 ， 

第 一 层 每 个 节点 的 输入 都 是 一 样 的 ， 都 是 x,、x,、x;、Xxsy、xs。 每 个 节点 的 超 平面 都 可 以 用 

g(v)=wv+b 来 表示 ， 也 就 是 ywixtwxxztwyxxtwaxstwsxstb。 但 是 要 注意 ， 所 有 的 节点 最 后 
输出 的 函数 只 有 1 或 者 0 两 个 状态 ， 所 以 在 很 多 资料 上 会 看 到 以 下 写法 。 
激活 函数 为 Logistic 函数 : 

F 

1 十 


et w'veh) 
即便 变量 名 字 不 一 样 ， 但 是 实质 内 容 是 一 样 的 。 
SO) = — cs: 这 个 两 数 其 实 是 /() o —— 和 全 wvtb 这 两 个 函数 组 合 变量 代 换 形 
e 
成 的 ， 把 ! 代 换 进 去 ， 就 变 成 了 fo) 的 形式 ， 虽 然 变量 名 不 同 但 是 函数 值 和 自 变量 的 关系 没 
有 发 生 任何 变化 。 


l 
] 十 





t-w'veb 在 SVM 里 已 经 介绍 过 。 /OO = 的 图 形 如 图 15-9 所 示 。 








1 





图 15-9 f(0- ET 的 图 形 


1+ 
比 0.5 大 时 函数 就 是 1， 比 0.5 小 时 函数 就 是 0。 
也 有 地 方 写成 以 下 形式 : 


Jie 
l+e 


其 中 尺 是 可 以 调整 的 正 整 数 ，m 越 小 曲线 越 平缓 ; m 越 大 曲线 越 立 陡 ， 分 类 边界 越 明 
显 。 具 体 在 每 个 应 用 里 怎么 去 取 奖 值 可 以 依 情况 而 定 ， 如 果 需 要 边界 区 分 非常 明显 ， 那 就 
把 m 设 大 一 些 。 


SO = 一 5 两 数 图 形 如 图 15-10 所 示 。 
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; l 
K 15-10 /(0 = —z 的 图 形 
1+e 


file DU 函数 图 形 如 图 15-11 所 示 。 











图 15-11 fO 的 图 形 


所 以 对 于 f( -- 一 wn 函数 来 说 ， 函数 会 根据 v 的 输入 对 应 产生 1 和 0 两 种 函数 
fä, vito i S qe 文 个 矩阵 ， 这 就 是 在 网 络 训练 中 需要 决定 
的 。 要 知道 最 后 每 个 节点 都 有 函数 (0) = 一 一 wa ， 而 且 每 个 节点 之 间 都 可 能 完全 不 一 


样 。 ———H 前 面 一 层 的 输出 结果 作为 后 面 一 层 节点 的 
输入 ， 最 后 一 层 的 输出 是 5 个 不 同 的 1 或 0， 也 就 是 说 这 个 网 络 最 多 标识 32 种 不 同 的 分 
类 一 一 因为 2 的 5 次 宕 就 是 32， 它 没 办 法 标识 更 多 的 分 类 ， 除 非 增加 节点 的 数量 。 


15.4.2 ”训练 过 程 


前 面 讨论 了 结构 ， 现 在 讨论 的 是 调整 这 个 网 络 上 各 个 节点 上 各 个 “ 树 突 ” 上 的 权 值 。 
这 里 还 是 希望 找到 一 种 方法 ， 能 够 让 设置 好 的 各 个 权 值 能 够 匹配 尽 可 能 多 的 训练 样本 
的 分 类 情况 ， 让 误 判 的 情况 尽 可 能 少 ， 这 是 大 原则 ， 和 线性 回归 中 希望 残 差 尽量 小 的 思路 
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是 完全 一 样 的 。 当 时 用 的 是 最 小 二 乘法 的 方案 ， 而 最 小 二 乘法 的 思路 是 ， 如 果 把 误差 表示 
成 样本 做 自 变量 的 函数 ， 然 后 用 求 极 值 的 方法 来 推导 就 可 以 找 出 这 个 误差 最 小 情况 下 的 各 
种 系数 值 了 。 很 幸运 ,在 BP 神经 网 络 的 w 权 值 确定 中 同样 可 以 用 这 种 思路 来 完成 。 

对 于 完整 的 训练 过 程 ， 看 上 去 像 在 曲线 上 找 驻 点 的 过 程 ， 这 里 试 着 解释 一 下 这 个 过 程 。 
下 面 这 个 推导 过 程 看 上 去 比较 复杂 ， 如 果 看 不 明白 直接 记 结 论 即 可 ， 推 导 细 节 可 以 忽略 。 

(1 ) 误差 计算 。 

隐 含 层 节 点 输入 为 h=wixitbio 

隐 含 层 节 点 的 输出 为 hh) 

输出 层 节 点 的 输入 为 y=wiohstb。。 

输出 层 节点 的 输出 为 yV) 

变量 统一 化 ， 这 样 的 表示 可 以 把 两 层 的 输入 输出 串 起 来 ， EAA a Was Wos Aor Yo 
都 是 向 量 。 

Ej-d,-y, 
整个 网 络 误差 函数 为 


2lygllwWwu yy 
Began 22.4. Yoi) 


也 就 是 说 ， 给 定 n 个 训练 样本 ,误差 就 是 训练 中 给 出 的 分 类 和 学 习 后 分 类 函数 输出 的 
分 类 的 差 值 ， 然 后 平方 再 加 和 。 这 个 过 程 与 求 方差 差不多 ， 反 正 最 后 的 原则 很 清楚 ， 方 差 
尽 可 能 小 ， 最 好 是 零 。 如 果 在 设置 了 隐 含 层 和 输出 层 的 权 值 后 ， 这 个 等 式 的 值 很 小 ， 在 期 
望 的 误差 范围 之 内 即 可 ， 如 果 超 过 了 误差 范围 就 需要 调整 一 一 通常 不 太 可 能 一 次 就 把 值 都 
设置 正确 。 这 个 函数 前 面 本 身 是 没有 1/2 的 ， 这 里 特意 配 了 一 个 1/2 在 里 面 ， 第 一 不 会 影响 
函数 的 单调 性 ， 第 二 ， 在 求 导 时 能 够 去 掉 ， 看 上 去 简洁 一 些 。 

(2) 反 向 传播 。 然 后 对 这 个 误差 函数 进行 求 导 求 偏 微分 ， 这 里 只 给 出 简单 的 推导 过 程 。 

输出 层 误差 偏 微分 


OE OE 


$ 


i 





Ow,, i Ow, 





其 中 


1 n 
OE 952). 一 及 小 
m 
[o s - (d, -y4)y;'7 (d, — yo)f (2)=-6, 
Oy, Oy, 


Oy, "M O(w,,h, *b,) ES h 
Ów,, Ow,, í 
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那么 
OE 0E y y, 
Ow, i OW, 
误差 的 梯度 
of dyo)f 0) 
隐 含 层 误差 偏 微分 
OE _ ôE oh 
Ow, Oh Ow, 


方法 和 输出 层 的 推导 完全 一 样 : 


14 ; 
a-y Lan 

GE 一 2 2 ý Yai) Oh, 

oh, oh, oh, 


1 n 
O— > (d,— y 
os 
oh, oh, 


1 





€ : 

ðY (d, - by 
E 22 oi f (wioh, F »)) Oh, 
oh Oh, 


o 


oh, 
Oh, 


i 


- (d, — Y4)f O)w, 


M = Win f 'Q) 


Oh _ Ow eb) 
Ow, Ow, 





那么 





误差 的 梯度 
Ó,7(0,w;,) f "(hi) 
(3) 权 值 修正 。 
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Wao = wh +776,h, 
输出 层 更 新 : 
Wa = Wh tnÓx 


其 中 N 表 示 第 和 N 次 迭代 ，N+1 表示 第 NH 次 迭代 。 


15.4.3 ”过 程 解释 

整个 BP 网 络 的 训练 过 程 我 们 用 通俗 的 话 解释 一 下 。 

首先 先 设置 两 套 w 作为 两 层 网 络 各 自 的 “ 超 平面 ”的 系数 ， 然 后 输入 一 次 完整 的 训练 
过 程 ， 就 会 有 一 个 误差 值 出 现 ， 因 为 给 出 的 w 很 可 能 不 合适 。 

接着 就 是 一 次 一 次 地 进行 w 的 调整 。 调 整 方法 是 ， 首 先 用 类 似 最 小 二 乘法 的 方式 ， 找 
到 一 个 误差 和 自 变 量 的 关系 ， 然 后 求 误差 极 值 。 误 差 极 值 存在 的 点 就 是 误差 最 小 的 点 ， 这 
和 回归 分 析 的 最 小 二 乘法 思路 几乎 一 样 。 

只 是 在 最 后 的 Wi = 网 +76 及 和 ww 和 = 由 +76x 两 个 公式 里 ， 用 的 是 试探 性 的 方法 。 
+76 和 +776,h 是 一 种 试探 的 “ 步 长 "， 第 一 次 分 别 设置 了 w。 和 ww， 如 果 有 误差 ， 就 试 
着 往 误差 小 的 一 边 “ 走 一 步 "， 如 果 还 不 够 小 就 再 “ 走 一 步 ”"， 这 就 是 一 次 一 次 迭代 的 目的 。 
最 后 找到 一 个 误差 满足 要 求 的 点 ， 把 这 一 点 的 ws。 和 ww 都 记录 下 来 ， 网 络 就 训练 完毕 了 。 

这 种 用 步 长 试探 的 思路 在 10.6 节 也 介绍 过 ， 当 时 把 这 种 方式 称 为 梯度 下 降 法 。 


15.4.4 “示例 

这 里 给 出 一 个 具体 的 BP 神经 网 络 训练 和 使 用 的 示例 。 

在 一 些 经 典 的 有 关 BP 神经 网 络 的 应 用 中 都 会 看 到 关于 手写 识别 的 算法 。 这 里 用 它 入 手 
来 感受 一 下 BP 神经 网 络 工作 的 过 程 。 实 验 流程 如 下 。 

CI) 准备 训练 图 片 。 

(2 ) 模型 训练 。 

(3 ) 判定 验证 。 

具体 操作 如 下 。 

(1 ) 准备 训练 图 片 。 

准备 如 图 15-12 所 示 的 6 组 不 同 字体 、 不 同 颜色 、 不 同 大 小 的 数字 。 在 这 里 我 是 用 
EXCEL 来 做 的 ， 大 家 自己 在 实验 的 过 程 中 也 同样 可 以 寻求 其 他 的 方法 。 

(2) 把 这 些 数 字 所 在 的 方 格 ， 一 共 60 个 ， 都 保存 成 BMP 位 图 格式 的 图 片 文件 。 文 件 
命名 时 ， 从 上 到 下 用 A、B、C、D、E、F 来 表示 组 别 , H1. 2.3.4, 5,6. 7, 8. 9, 0 
来 表示 数字 ， 即 
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图 15-12 训练 图 片 


Al.bmp、A2.bmp、A3.bmp、……' 、A9.bmp、A0.bmp。 
Bl.bmp、B2.bmp、B3.bmp、…… 、B9.bmp、B0.bmp。 
Fl.bmp, F2.bmp, F3.bmp, as . F9.bmp, F0.bmp. 


还 可 以 考虑 用 英文 字符 “A”“B”“C” 作 为 识别 对 象 ， 还 可 以 考虑 用 中 文 的 “ 
“ 乙 ”、“ 两 ”等 汉字 作为 识别 对 象 ， 原 理 是 完全 一 样 的 。 

(3) 对 图 像 进行 二 值 化 处 理 。 图 像 本 身 是 由 很 多 像素 点 构成 的 ， 在 本 例 中 ， 使 用 的 是 
32x32 的 像素 和 矩阵。 每 一 个 像素 点 都 有 一 个 灰 度 值 ， 灰 度 值 是 [0,255] 区 间 的 一 个 整数 值 。 
一 个 点 的 灰 度 越 靠近 255， 则 说 明 这 个 点 颜色 越 深 反之 如 果 一 个 点 的 灰 度 越 靠 近 0， 则 说 
明 这 个 点 颜色 越 浅 。 

需要 通过 图 像 二 值 化 处 理 把 所 有 的 图 片 变 成 二 值 化 后 的 图 片 ， 也 就 是 每 个 像素 点 做 一 
个 “ 非 黑 即 白 ”的 归 类 设置 ， 要么 设置 成 黑色 ， 要 么 设置 成 白色 。 

def convert to blackwhite (image, name) 

image = image.convert ("L") 

image.save("new "«name) 

image = image.point(lambda x:WHITE if x»128 else BLACK) 

image - image.convert('1') 

image.save( 

经 过 上 面 这 段 代 码 的 处 理 ， 所 有 的 图 片 文件 都 已 
经 变 成 了 二 值 化 后 的 图 片 ， 每 张 图 片 中 的 每 个 像素 都 
是 非 黑 即 白 ， 如 图 15-13 所 示 。 

注意 上 面 代码 中 x > 128 这 个 部 分 。 虽 然 可 以 选 
择 0 到 255 中 的 任何 值 作 为 判断 黑白 的 分 水 岭 ， 但 是 
选择 时 要 注意 ， 如 果 这 个 值 设 置 得 太 高 ， 那 么 很 多 颜 
色 浅 的 训练 样本 就 会 丢失 信息 ， 导 致 模型 失真 。 如 果 
设置 得 太 低 ， 那 么 如 果 图 片 背景 的 颜色 不 是 白色 ， 而 图 15-13 二 值 化 后 的 图 片 

ww ai bb. com r1 DD D a a n 





242 4» 白话 大 数据 与 机 器 学 习 


是 有 一 些 浅 颜色 的 背景 噪声 ， 那 么 这 些 点 就 会 被 当成 有 效 信息 来 训练 模型 ， 同 样 会 误导 模 
型 。 具 体 选 多 少 合适 ， 需 要 根据 实际 生产 生活 中 的 具体 情况 去 分 析 ， 这 里 仅 作 参考 。 
然后 就 可 以 把 图 片 一 个 一 个 传递 给 训练 算法 做 训练 了 ， 传 递 时 还 是 一 个 向 量 v 和 分 类 
o) 之 间 的 关系 。 
以 new_F5.bmp 这 个 图 片 为 例 ， 如 图 15-14 所 示 ， 这 个 图 片 在 32 x 32 像素 的 位 图 模式 
下 放大 来 看 如 图 15-14 (a) 所 示 ， 看 上 去 很 模糊 ， 因 为 边缘 上 的 一 些 为 了 产生 视觉 过 滤 效 果 
的 中 间 色 也 被 二 值 化 成 了 黑色 。 





(a) 二 值 化 后 的 图 片 * (b) 将 图 片 的 每 个 2x 2 像素 
作为 1 个 基本 输入 单位 


图 15-14. new_F5.bmp 图 片 


将 32x32 像 素 的 图 片 的 每 个 2x2 像 素 作为 1 个 基本 输入 单位 ， 这 样 一 来 ， 就 有 
16 x 16 个 基本 输入 单位 了 ， 也 就 是 256 个 基本 输入 单位 。 

那么 输入 向 量 就 可 以 确定 格式 了 ， 整 个 图 从 左上 到 右 下 每 一 个 单位 都 作为 一 个 v 的 维 
度 ， 这 样 输 入 的 训练 向 量 v 就 是 一 个 拥有 256 个 维度 的 向 量 了 。 每 个 维度 的 值 的 确定 如 图 
15-15 所 示 。 





图 15- 15 ”确定 每 个 维度 的 值 


这 4 个 像素 中 的 黑色 像素 数 作 为 维度 值 就 可 以 了 ,例如 上 面 这 4 个 输入 单位 的 像素 颜 
色 分 别 就 对 应 着 1、2、2、0 这 4 种 输入 ， 以 此 类 推 ，256 个 维度 的 值 都 能 确定 下 来 。 刚 刚 
这 个 5 就 可 以 转化 成 这 样 一 个 256 维 的 向 量 了 : 


0000000000000000 
0000000000000000 
0000024444444 0 0 0 0 
0000044444440000 
0000042000000000 
0000042000000000 
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0000242222 00200 0 0 
00002444444 10000 
00002 44 03 44 0000 
000012 1001441000 
000012200044 2000 
00003 44001441000 
0000244300244 0000 
000014 3224410000 
000001 3443 100000 
0000000000000000 


而 5 对 应 的 分 类 向 量 可 以 设置 为 

0000100000 

以 此 类 推 ，0 对 应 的 是 

0000000001 

7 对 应 的 是 

0000001000 

这 样 一 来 ， 所 有 的 图 片 向 量 和 所 有 的 图 片 对 应 的 数字 分 类 都 能 够 一 一 对 应 起 来 ， 把 

这 些 训练 样本 按照 FANN 的 要 求 存 人 文件 ， 用 下 面 的 代码 (注意 不 是 把 图 片 直 接 传递 给 
FANN 去 做 运算 ， 是 数字 向 量 文本 ，FANN 的 安装 请 见 附录 E): 


#make training data.py 

f = open('train.data', 'wt') 

print »5f, len(result), 256, 10 

for input, output in result: 
print ssf; input 

print »»f, output 


始 训练 : 


#train ann.py 
connectionRate = 1 4 Editi X 1 (100%) 
learningRate = 0.008 4 £213 Jj 0.008 
desiredError = 0.001 4 NI Z4 XX 0.001 
maxIterations = 10000 $&J& $3íT 10 000 次 迭代 
iterationsBetweenReports = 100 ## 每 间隔 100 次 报告 一 下 学 习 结 果 
inNum- 256 4256 个 神经 元 
hideNum = 64  & [E E 64 个 神经 元 
outNum-10 #4 HRA 10 个 神经 元 
class NeuNet (neural net): 
def — init (self): 
neural net. init (self) 
neural net.create standard array(self, (inNum, hideNum, outNum)) 
def train on file(self,fileName): neural net.train on file(self,fileName,maxIter- 
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ations,iterationsBetweenReports,desiredError) 


主 程序 部 分 : 


if name = main ' 

ann = NeuNet () i 

ann.train on file("train.data") # 读 取 训 练 向 量 文件 
ann.save("number recognize.net") # 将 模型 存储 到 文件 


一 般 不 会 直到 10 000 次 才 满 足 条 件 退 出 ， 几 百 次 就 已 经 让 误差 率 低 于 期 望 误差 的 
0.001 了 ， 这 时 训练 自动 会 结束 。 


#test recognize.py 





if name  -- " main ": 
ann = NeuNet() 
ann.create from file("number recognize.net") # 读 取 模 型 文件 创建 分 类 模型 (网 络 ) 
data = read test data() # 读 取 测 试 数 据 
for k, v in data.iteritems(): 
k = string to list(k) 
v - string to list(v) 
result - ann.run(k) 
print euclidean distance(v, result) 


最 后 使 用 test recognize.py 读 入 一段 待 分 类 的 向 量 文 本 文件 ， 打 印 出 结果 。 这 个 文件 就 
是 由 一 个 或 多 个 待 分 类 的 图 片 文 件 各 自 经 过 向 量化 变 成 的 256 维 向 量 组 。 输 出 的 结果 也 是 
和 待 分 类 向 量 一 一 对 应 的 一 个 或 多 个 待 分 类 的 结果 。 

一 般 来 说 ， 训 练 的 样本 越 多 ， 数 字 书 写 的 样式 越 丰 富 ， 分 类 就 越 准 确 。 我 们 在 这 个 环 
节 可 以 自己 和 神经 网 络 做 个 小 游戏 ， 看 看 牌 牌 扭 扭 的 阿拉 伯 数 字 小 网 络 买 不 买账 ， 如 果 不 
买账 那 就 继续 拿 这 些 牌 牌 扭 扭 的 数字 继续 训练 它 ， 学 会 了 为 止 。 


15.5 RŽP 


玻 尔 效 曼 机 〈Boltzmann Machine) 最 经 典 的 应 用 是 用 来 解决 货 郎 担 问 题 。 在 前 面 遗传 
算法 的 部 分 介绍 过 TSP 问题 ，Traveling Salesman Problem， 即 旅行 商 问 题 ， 也 叫 货 郎 担 问 
题 。 货 郎 担 问 题 用 遗传 算法 是 可 以 解决 的 ， 某 些 介绍 遗传 算法 的 材料 中 也 对 玻 尔 兹 曼 机 和 
模拟 退火 算法 做 了 介绍 。 玻 尔 兹 曼 机 的 网 络 模型 与 BP 神经 网 络 模 型 的 结构 没有 什么 区 别 ， 
也 可 以 有 两 层 或 者 多 层 ， 只 是 训练 的 方式 不 太一 样 。 


15.5.1 退火 模型 


模拟 退火 算法 (Simulated Annealing, SA) 最 早 的 思想 是 由 梅 特 罗 波 利 斯 (N. Metropolis) 
等 人 于 1953 年 提出 。 到 了 1983 年 ， 柯 克 帕 特 里 克 (S. Kirkpatrick) 等 人 在 研究 优化 组 合 问题 
时 发 现 ， 组 合 优化 求解 极 小 值 与 金属 热处理 工艺 中 的 退火 过 程 具有 很 大 的 相似 性 ， 于 是 他 们 
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创造 了 模拟 退火 算法 。 

退火 是 金属 材料 热处理 中 使 用 的 一 个 名 词 ， 表 示 把 钢铁 缓慢 烧 热 到 一 定 温度 后 保持 一 
段 时 间 ， 然 后 再 慢 慢 以 一 定 的 速度 把 温度 降下 来 。 

退火 这 个 过 程 在 物理 学 上 是 有 原理 解释 的 ， 大 概 过 程 是 ， 一 开始 ,金属 内 部 原子 和 原 
子 之 间 是 有 一 定 的 斥 力 和 引力 的 ， 这 样 形成 了 一 定 的 势能 (有 的 材料 上 又 叫 内 能 或 者 应 力 )， 
这 是 一 种 相对 不 稳定 的 状态 。 通 过 加 热 的 过 程 ， 让 大 量 的 原子 开始 运动 离开 原来 的 位 置 ， 
然后 随 着 温度 的 降低 ， 原 子 的 运动 速度 也 没有 原来 那么 快 了 ， 最 后 达到 稳定 的 状态 ， 而 这 
个 稳定 的 状态 通常 都 是 比 一 开始 的 状态 势能 要 低 的 。 退 火 之 后 的 金属 通常 更 柔韧 ， 不 易 开 
裂 或 变形 ， 切 削 性 能 更 好 。 为 了 获得 更 好 的 退火 后 的 金属 性 能 ， 通 常 退 火 会 进行 几 次 。 

如 果 觉 得 从 炼 钢 的 角度 不 好 理解 ， 那 就 理解 为 在 一 个 底部 不 规则 的 大 管 算 里 有 很 多 形 
状 不 规则 的 积木 。 在 不 做 特殊 处 理 的 情况 下 ,积木 中 间 其 实 是 有 活动 余地 的 ， 在 上 面 放 任 
何 东西 也 都 会 因为 积木 有 可 能 发 生 移动 而 变 得 不 稳固 。 和 希望 更 稳固 怎么 办 ? 最 直接 的 想法 
是 把 管 黎 管 一 管 ， 让 这 些 积木 跑 到 更 稳固 的 状态 上 去 ,通常 跑 到 稳固 状态 上 的 积木 也 不 容 
易 再 出 来 。 这 样 最 后 停止 时 管 复 里 的 积木 堆 就 比 原来 的 积木 堆 要 更 稳定 ， 更 抗 压 。 要 想 让 
积木 堆 尽 可 能 稳定 ， 多 管 几 次 即 可 ， 直 到 看 上 去 积木 堆 的 体积 不 再 变化 了 (图 15-16). 





图 15-16 积木 从 不 稳定 到 稳定 


从 算法 上 来 看 ， 还 是 迭代 多 次 ， 然 后 让 算法 收敛 到 某 个 解 附 近 ， 这 个 解 就 是 全 局 最 优 
解 。 这 种 思路 我 们 在 遗传 算法 里 也 介绍 过 。 


15.5.2” 玻 尔 效 曼 机 


1868 年 ， 奥 地 利 物 理 学 家 路 德 维 希 . 玻 尔 兹 曼 ( Ludwig Edward Boltzmann) 在 研究 气 
体 热平衡 统计 力学 中 给 出 一 个 玻 尔 兹 曼 因 子 : 


kpT 
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其 中 , e 是 自然 常数 ,E; 是 状态 i 的 能 量 ,，ks 是 玻 尔 兹 曼 常 数 , 了 是 当时 的 绝对 温度 〈 绝 
对 零度 是 零下 273% )。 波 尔 兹 曼 因 子 在 使 用 时 通常 是 用 来 比较 同一 温度 之 下 ， 系 统 所 处 两 
个 状态 概率 的 比值 。 


E E E, -E; 
(e ka? ) (e kar) sze kaT 





Fl(state2) _ 
F (statel) » 
把 这 个 时 候 的 温度 7、 种 数 e 和 ks 代 进 去 ， 这 个 比值 和 这 两 个 能 量 的 差 做 e 的 指数 的 
短 函 数值 成 正比 。 可 以 肯定 的 是 ， 在 7 一 定时 ， 两 个 能 量 的 差 越 大 ， 这 个 比值 就 越 大 ， 也 
就 是 在 两 个 状态 下 的 概率 的 比率 越 大 ， 状 态 为 state2 的 概率 越 大 。 
1 
I J& A CIR i SO) = KR, XUT SCHEDE Ae E P NAA 
合 起 来 。 对 于 分 类 也 确实 只 有 两 种 结果 ， 要 么 属于 (输出 1 )， 要 么 不 属于 (输出 0). 
输出 1 时 ， 概 率 函 数 








p(v) s -(w'veb) 
lte T 
输出 0 时， 概率 函数 
1- p(V)=1— l 
P lam -(w'veb) 
l-e 
所 以 两 个 状态 的 比值 
1 
-(wl vb) m NS 
pO) _ l4e 7 220r 
= =¢ 
1- p(v) 1- 1 
-(wI'veb) 
l+e 了 


也 就 是 说 要 训练 这 个 玻 尔 兹 曼 机 ， 让 它 具备 分 类 的 能 力 ， 而 应 该 决定 的 是 wr 为 多 少 ， 
以 及 了 为 多 少 才能 满足 尽量 少 地 误 判 。 

根据 函数 (0 — — — 的 模型 ,前面 的 系数 绝对 值 越 大 ， 曲 线 越 立 陡 ; 系数 绝对 值 越 
小 曲线 越 平缓 ， 所 以 了 这 个 温度 的 选择 也 是 要 进行 相应 考虑 的 ， 不 同 的 是 ， 由 于 取 了 倒数 ， 
7 越 大 曲线 越 平缓 ， 越 小 曲线 越 立 陡 : 


b 


pv) _ 
l- p(v) 





实际 的 训练 过 程 如 下 。 
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(1) 先 设置 一 组 w"、b 和 T， 这 个 初始 的 了 叫 mi，7 设置 得 大 一 些 。 

(2) 然后 每 一 个 都 能 计算 出 其 对 应 的 分 类 结果 的 概率 比率 情况 。 如 果 是 1， 则 表示 
这 个 vy 被 判断 为 “属于 该 分 类 ”的 概率 和 “不 属于 该 分 类 ”的 概率 一 样 大 ; 大 于 1 且 越 大 ， 
则 说 明 "被 判断 为 “属于 该 分 类 ”的 概率 越 大 ; 反之 , 小 于 1 且 越 接近 0， 则 说 明 v 被 判断 
为 “不 属于 该 分 类 ”的 概率 越 大 。 
(3) AET, T+). 


maey 的 方式 进行 迁 代 性 下 降 模拟 退火 的 过 程 。 有 的 次 





料 上 写成 lg(x+1)， 性 质 差 不 多 。 
(4) 当 发 现 连续 迭代 一 两 次 后 了 的 变化 没有 引起 明显 的 误 判 率 的 减 小 ， 就 可 以 结束 。 


15.6 ” 卷 积 神经 网 络 


很 多 研究 者 喜欢 把 卷 积 神经 网 络 放 到 “深度 学 习 ”( Deep Learning) 的 范畴 来 介绍 。 这 
里 将 卷 积 神经 网 络 放 在 神经 网 络 中 进行 介绍 ， 后 面 专 门 还 有 一 节 对 深度 学 习 进 行 讨论 。 

卷 积 神经 网 络 ( Convolutional Neural Network, CNN) 是 一 种 前 馈 神 经 网 络 ， 它 的 人 工 
神经 元 可 以 响应 一 部 分 覆盖 范围 内 的 周围 单元 ， 对 于 大 规模 的 模式 识别 都 是 有 着 非常 好 的 
性 能 表现 的 ， 尤 其 是 对 大 规模 图 形 图 像 处 理 效率 极 高 ， 这 也 是 大 家 热衷 研究 这 类 网 络 的 重 
要 原因 。 说 到 底 ， 卷 积 神经 网 络 还 是 一 个 分 类 器 ， 是 一 种 有 监督 机 器 学 习 的 工具 。 

在 20 世纪 60 年 代 ， 美 国 神经 生物 学 家 Hubel 和 Wiesel 在 研究 猫 脑 皮 层 中 用 于 局 部 敏 
感 和 方向 选择 的 神经 元 时 发 现 其 独特 的 网 络 结构 可 以 有 效 地 降低 反馈 神经 网 络 的 复杂 性 ， 继 
而 提出 了 卷 积 神经 网 络 。 现 在 ，CNN 已 经 成 为 众多 科学 领域 的 研究 热点 之 一 ， 特 别 是 在 模 
式 分 类 领域 ， 由 于 该 网 络 避免 了 对 图 像 的 复杂 前 期 预 处 理 ， 可 以 直接 输入 原始 图 像 ， 因 而 得 
到 了 更 为 广泛 的 应 用 。 日 本 人 福 岛 邦彦 (Kunihiko Fukushima) 在 20 世纪 90 年 代 提 出 的 新 
识别 机 是 卷 积 神经 网 络 的 第 一 个 实现 网 络 。 随 后 ， 更 多 的 科研 工作 者 对 该 网 络 进行 了 改进 。 

一 般 来 说 ，CNN 的 基本 结构 包括 两 层 。 

第 一 层 为 特征 提取 层 ， 每 个 神经 元 的 输入 与 前 一 层 的 局 部 接受 域 相连 ， 并 提取 该 局 部 
的 特征 。 一 旦 该 局 部 特征 被 提取 后 ， 它 与 其 他 特征 间 的 位 置 关 系 也 随 之 确定 下 来 。 

第 二 层 为 特征 映射 层 ， 网 络 的 每 个 计算 层 由 多 个 特征 映射 组 成 ， 每 个 特征 映射 是 一 个 
平面 , 平面 上 所 有 神经 元 的 权 值 相等 。 特 征 映射 结构 采用 影响 函数 核 小 的 sigmoid 函数 作为 
卷 积 网 络 的 激活 函数 ， 使 得 特征 映射 具有 位 移 不 变性 。 

此 外 ， 由 于 一 个 映射 面 上 的 神经 元 共享 权 值 ， 因 而 减少 了 网 络 自由 参数 的 个 数 。 卷 积 
神经 网 络 中 的 每 一 个 卷 积 层 都 紧 跟 着 一 个 用 来 求 局 部 平均 与 二 次 提取 的 计算 层 ， 这 种 特有 
的 两 次 特征 提取 结构 减 小 了 特征 分 辩 率 。 

CNN 主要 用 来 识别 位 移 、 缩 放 及 其 他 形式 扭曲 不 变性 的 二 维 图 形 。 由 于 CNN 的 特征 
检测 层 通过 训练 数据 进行 学 习 ， 所 以 在 使 用 CNN 时 ， 避 免 了 显 式 的 特征 抽取 ， 而 隐 式 地 从 
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训练 数据 中 进行 学 习 ; 再 者 由 于 同一 特征 映射 面 上 的 神经 元 权 值 相同 ， 所 以 网 络 可 以 并 行 
学 习 ， 这 也 是 卷 积 网 络 相对 于 神经 元 彼此 相连 网 络 的 一 大 优势 。 卷 积 神经 网 络 以 其 局 部 权 
值 共享 的 特殊 结构 在 语音 识别 和 图 像 处 理 方面 有 着 独特 的 优越 性 ， 其 布局 更 接近 于 实际 的 
生物 神经 网 络 ， 权 值 共享 降低 了 网 络 的 复杂 性 ， 特 别 是 多 维 输入 向 量 的 图 像 可 以 直接 输入 
网 络 这 一 特点 避免 了 特征 提取 和 分 类 过 程 中 数据 重建 的 复杂 度 。 

. 为 了 了 解 卷 积 神经 网 络 的 实质 ， 下 面 简单 介绍 一 下 卷 积 。 


15.6.4 FR 

TE FRA HDD, HASTA. MERRTE (Convolution) 的 定义 一 一 一 般 的 中 文 材料 里 还 是 
习惯 用 卷 积 这 个 名 词 。 它 是 通过 两 个 函数 /和 8g 生成 第 三 个 函数 的 一 种 数学 算 子 ， 表 征 函 数 
J 与 8 经 过 翻转 和 平移 的 重 琶 部 分 的 面积 。 

在 通信 工程 领域 ， 卷 积 是 非常 常用 的 一 种 计算 方法 ， 通 常用 到 卷 积 也 是 和 传 里 叶 变换 
有 关系 。 大 家 在 知 乎 上 去 找到 的 话 可 以 找到 很 多 对 卷 积 的 解释 ， 有 不 少 形象 的 类 比 。 

卷 积 的 数学 定义 如 下 : 


h(x) = f G)* g= [7 fOe- 


这 个 等 式 可 以 从 面积 的 角度 去 尝试 解释 一 下 。 

在 第 8 章 曾 经 介绍 过 关于 逐 差 法 求 重力 加 速度 g 的 过 程 ， 其 中 有 位 移 s(D)= ['vo)-dx ， 
整个 积分 式 的 含义 就 是 位 移 s 是 一 个 随 着 1 变化 的 函数 ， 而 整个 过 程 中 s 是 由 这 一 瞬间 的 速 
度 v(D 和 了 瞬间 的 时 间 长 度 dt (At) 相 乘 而 来 的 。 这 里 面 有 一 个 非常 重要 的 概念 ， 就 是 积分 表 
示 的 是 面积 一 一 函数 曲线 v(t) 和 s=0( 轴 ) 围 成 的 面积 。 在 上 述 卷 积 式 中 ， 就 是 h(x) 和 y=0(x 
轴 ) 围 成 的 面积 。 

那么 这 个 积分 式 中 的 ftDg(x-?) 是 什么 呢 ? 其 实 是 ，XD Ju 3h. g(-10 相当 于 g(0 函数 
的 图 像 沿 着 > 轴 (050 ) 做 了 一 次 翻转 。g(x-n) 相当 于 gcn 的 整个 图 像 沿 着 上 轴 进 行 了 平移 ， 
向 右 平 称 了 x 个 单位 。 

做 了 这 个 变换 之 后 ， 可 以 想象 这 一 共 是 有 两 个 泡 数 ， 一 个 是 固定 的 函数 ， 一 个 是 滑动 
的 函数 ， 求 它们 相 乘 之 后 围 起 来 的 面积 ， 滑 动 的 变量 就 是 x。 如 图 15-17 WR, fü) 就 是 一 
个 三 角形 ， 在 第 二 象限 是 一 条 过 (-1, 0) 和 (0，1 ) 点 的 线段 ， 在 第 一 象限 是 一 条 过 CO, 
1) ICI, 0) 点 的 线段 。 函 数 g(t) 是 一 个 正方 的 脉冲 波 , EN, J 上 有 定义 ， 在 这 段 区 
BE g()=ts RR g(x— 1) 是 左 侧 的 这 个 做 过 翻转 的 图 形 ， 图 15-18 中 还 分 别 有 x=-2, x=-1, 
x-0, x-1l, x-2 时 的 图 像 。 

可 以 观察 到 ， 在 这 个 不 定 积分 完成 后 ， 会 形成 两 个 函数 冯 加 的 部 分 ， 其 中 x 是 一 个 变 
量 。 假 设 x 为 0， 或 者 当 x 不 存在 ,那么 就 是 ftt) 和 g(t) 这 两 个 函数 相 乘 后 和 y=0 (1 轴 ) 
围 成 的 面积 。 当 x 出现 后 ,x 是 帮 着 g(-t) 图 像 左 右 平移 的 ， 刚 刚 也 看 到 这 个 图 像 的 变化 过 
EIT, BAZERA? 简单 地 说 ， 这 个 函数 h(x) 的 值 就 是 求 一 个 面积 和 x 的 关系 ， 而 
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这 个 面积 就 是 函数 ftt) 和 g(x-t) 相 乘 后 的 曲线 和 y=0 (1 轴 ) 围 成 的 面积 ， 其 中 自 变 量 是 x。 
EME x 变化 的 移动 过 程 中 ， 由 于 g(x-) 移动 产生 的 h(x) 的 对 应 变化 就 是 整个 卷 积 公 式 的 
意义 了 一 一 一 个 移动 中 用 x 进行 取样 的 过 程 。 





(a) ftt) (b) g() 
图 15-17 fü) gi) 








图 15-18 WAARA Em RD 


对 于 工学 层面 的 应 用 来 说 ， 卷 积 本 身 的 含义 以 及 推导 在 生产 生活 中 通常 没有 机 会 接触 ， 
读者 在 脑海 里 形成 一 个 移动 过 程 中 做 乘积 的 印象 就 足够 了 。 
15.6.2 ”图 像 识别 

介绍 了 卷 积 的 数学 意义 ， 下 面 介绍 卷 积 神经 网 络 的 应 用 过 程 。 


前 面 介 绍 了 BP 神 经 网 络 和 玻 尔 效 曼 机 ， 其 中 BP 神经 网 络 通常 是 一 个 多 层 的 神经 网 
络 系统 。 在 这 样 一 个 神经 网 络 中 ， 每 层 的 神经 节点 都 是 共享 前 一 层 所 有 的 输入 项 的 ， 也 就 
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是 每 层 各 个 节点 的 g(v)-wveb 的 v 都 是 一 样 的 。 训 练 也 是 一 次 一 次 进行 迭代 来 调整 各 个 w 
的 值 。 

这 种 网 络 有 一 个 问题 ， 就 是 一 旦 输入 的 v 维 度 比 较 大 ,训练 的 时 间 都 是 几何 级 数 增长 
的 ， 只 有 三 五 个 输入 时 训练 很 快 ， 输 入 多 达 三 五 百 个 时 基本 就 没 办 法 在 能 够 忍受 的 时 间 内 
训练 出 来 了 ， 而 在 图 像 识别 时 ， 一 个 图 像 如 果 是 2 048 x 1 536， 也 就 是 3 145 728 个 像素 
时 ， 已 经 完全 没 办 法 胜任 了 ， 这 还 不 是 高 清 图 片 ， 现 在 的 数码 相机 
动 加 就 1 600 万 像素 以 上 ， 这 就 更 没 可 能 训练 了 。 "7^ 

可 是 如 果真 的 想 这 么 做 ， 怎 么 办 ? 下 面 将 讨论 如 果 想 识别 -个 二 
2 048 x 1 536 像素 的 图 片 将 面临 什么 问题 ， 以 及 怎么 用 卷 积 神经 网 
络 解决 。 

我 们 以 青 人 果 的 图 片 为 例 (如 图 15-19 所 示 )， 如 果 想 要 用 神经 
网 络 对 这 个 2 048 x 1 536 像素 的 图 片 进行 建 模 处 理 ， 那 起 码 要 用 一 
个 3 145 728 维度 的 向 量 来 进行 建 模 。 好 在 受到 猫 脑 皮层 研究 中 的 ”图 15-19 青 苹 果 的 图 片 
一 些 启发 ， 有 了 局 部 感知 学 习 的 一 些 尝 试 。 


1. 设计 卷 积 层 

卷 积 神经 网 络 有 两 种 很 特殊 的 功能 与 前 面 接触 的 神经 网 络 不 同 ， 可 以 降低 参数 数目 。 

第 一 种 功能 : 局 部 感知 。 

一 般 认 为 人 对 外 界 的 认 知 是 从 局 部 到 全 局 的 ， 而 图 像 的 空间 联系 也 是 局 部 的 像素 联系 
较为 紧密 ， 而 距离 较 远 的 像素 相关 性 则 较 弱 。 因 而 ， 每 个 神经 元 其 实 没 有 必要 对 全 局 图 像 
进行 感知 ， 只 需要 对 局 部 进行 感知 ， 然 后 在 更 高 层 将 局 部 的 信息 综合 起 来 就 得 到 了 全 局 的 
信息 。 网 络 部 分 连通 的 思想 ， 也 是 受 启发 于 生物 学 里 面 的 视觉 系统 结构 。 视 觉 皮 层 的 神经 
元 就 是 局 部 接受 信息 的 ， 即 这 些 神 经 元 只 响应 某 些 特定 区 域 的 刺激 。 如 图 15-20 所 示 ， 图 
15-20 (a) 为 全 连接 ， 图 15-20 (b) 为 局 部 连接 。 

为 了 不 让 图 上 的 元 素 太 密 而 让 大 家 产生 不 快 的 感觉 ， 在 全 连接 情况 下 只 是 示意 性 地 画 
出 了 两 个 神经 元 ， 每 一 个 神经 元 都 连接 到 前 端 2 048 x 1 536 个 像素 输入 点 上 ， 在 纵横 两 个 
维度 上 都 做 连接 ; 图 15-20 (b) 画 出 的 是 整个 图 形 的 一 部 分 。 

在 这 个 2 048 x 1 536 像素 的 图 片 处 理 过 程 中 ， 本 来 需要 建立 一 个 3 145 728 个 输入 项 的 
多 节点 网 络 (每 个 节点 都 是 3 145 728 个 输入 项 )， 也 就 是 2 048 x 1 536 个 神经 元 ， 每 个 神 
经 元 的 输入 又 有 参数 2 048 x 1 536 个 。 

但 是 在 做 过 局 部 感知 处 理 后 ， 就 可 以 把 节点 的 数量 减少 ， 同 时 也 可 以 把 节点 的 参数 
数量 减少 。 由 于 2 048 是 2",，1 536 是 3x2”， 因 此 设计 一 个 节点 ， 这 个 节点 可 以 接收 
16 x 12， 也 就 是 192 个 参数 。 为 了 看 得 清楚 ,将 局 部 放大 ， 临 近 的 16 x 12 个 像素 点 连接 到 
一 个 神经 元 ， 每 个 神经 元 的 接收 范围 都 和 左右 两 侧 的 神经 元 各 有 1 列 是 不 同 的 ， 其 他 15 列 
是 相同 的 ; 而 和 上 下 两 侧 的 神经 元 各 有 1 行 是 不 同 的 ， 其 余 11 行 是 相同 的 。 





wwaibbt.com [1 DD U U UI 


第 15 章 ”人工 神经 网 络 ws 251 



































































































































































































































(a) 全 连接 (b) 局 部 连接 
图 15-20 感知 方式 


在 这 种 情况 下 ，16 x 12 个 像素 单位 的 图 片 需要 1 x 1=1 个 16x 12 的 神经 元 来 进行 连接 ; 
17 x 13 个 像素 单位 的 图 片 需要 2 x 224 个 16 x 12 的 神经 元 来 进行 连接 ; 18x 14 个 像素 单位 
的 图 片 需要 3 x 3-9 个 16 x 12 的 神经 元 来 进行 连接 ; 以 此 类 推 ，2 048 x 1 536 个 像素 单位 
需要 2 033 x 1 525=3 100 325 个 16 x 12 的 神经 元 来 进行 连接 。 

仍然 使 用 3 100 325， 也 就 是 2 033 x 1 525 个 神经 节点 。 对 比 一 下 ， 这 种 方法 的 改进 在 
权 值 训练 上 有 怎样 的 提高 。 

按照 BP 神经 网 络 , 3 145 728 个 输入 项 就 需要 3 145 728 个 节点 ， 每 个 节点 需要 3 145 728 
个 权 值 ， 也 就 是 需要 3 145 728 x 3 145 728=9 895 604 649 984， 也 就 是 9 万 8 千 多 亿 个 输入 
项 输入 到 第 一 层 (也 叫 隐 含 展 ) 上 。 

按照 刚刚 的 方案 进行 改进 ， 有 2 033 x 1 525 个 神经 节点 ， 每 个 节点 能 够 处 理 16 x 12 个 
参数 ， 而 现在 实际 上 用 了 2 033 x 1 525 x 16x 12， 也 就 是 595 262 400 个 输入 项 就 解决 了 ， 
对 比 原 来 的 9 万 8 千 多 亿 个 数量 减少 为 0.006%， 理 论 上 训练 速度 提高 至 少 5 个 数量 级 。 

卷 积 层 指 的 就 是 刚刚 设计 的 这 一 层 ， 而 这 16 x 12 个 参数 被 一 个 神经 节点 进行 处 理 和 特 
征 值 提取 的 过 程 操作 就 叫做 卷 积 操作 。 一 会 儿 
后 面 我 们 会 具体 讲解 怎么 来 做 这 个 过 程 。 

在 有 些 资料 里 还 会 看 到 如 图 15-21 所 示 的 
建 模 形式 ， 也 就 是 说 一 个 神经 元 不 仅 对 图 形 的 
像素 是 否 有 着 色 (二 值 化 后 的 黑色 ) 敏感 ， 还 
对 每 个 图 形 的 深度 (height) 敏感 。 图 形 深度 
是 RGB 颜色 的 值 的 深度 量化 ， 即 对 在 计算 机 
颜色 处 理 中 常用 的 红色 Red、 绿 色 Green, di 图 15-21 某 种 建 模 形 式 
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色 Blue 进行 参数 化 处 理 。 如 果 对 颜色 人 敏感， 在 刚刚 的 设计 中 ， 就 需要 对 每 个 神经 元 建 模 ， 
使 其 成 为 可 以 接受 16 x 12 x 3 个 参数 的 神经 元 。 如 果 不 敏感 ， 那 就 直接 把 图 像 二 值 化 后 再 
做 训练 。 

第 二 种 功能 : 参数 共享 。 : 

上 述 例子 里 ， 即 便 不 需要 对 颜色 敏感 ， 还 是 需要 用 训练 来 调整 595 262 400 个 权 值 ， 而 
这 个 数量 虽然 比 前 面 9 万 多 亿 的 设计 好 很 多 但 是 仍然 很 多 。 那 么 这 时 就 需要 第 二 个 强大 的 
功能 派 上 用 场 ， 那 就 是 参数 共享 。 

在 刚刚 设计 的 卷 积 层 中 ， 每 个 神经 元 都 对 应 16 x 12 个 参数 ,一 共 2 033 x1 525, E 
3 100 325 个 神经 元 ， 如 果 这 3 100 325 个 神经 元 的 192 个 参数 都 是 相等 的 ， 那 么 实际 上 要 
训练 的 参数 数目 就 变 为 192 To 

有 关 权 值 共享 的 问题 只 是 一 个 减少 参数 训练 复杂 度 的 技巧 ， 或 者 只 是 方案 之 一 ， 而 非 
必要 方案 ， 是 强行 设置 的 一 种 权 值 方式 。 可 以 把 这 16 x 12 个 参数 看 成 是 提取 特征 的 方式 ， 
该 方式 与 图 像 捕 提 的 位 置 无 关 。 大 致 原理 : 视觉 神经 在 捕捉 外 界 进 来 的 光 信 和 号 时 是 不 加 分 
别 的 ， 所 有 的 神经 对 于 映射 到 它 上 的 信号 ( 16 x 12 个 输入 ) 是 一 视 同仁 地 看 待 的 ( 权 值 一 
样 )， 不 同 的 是 这 个 阵列 上 的 不 同 细胞 映射 的 信号 对 象 不 一 样 ， 只 映射 它 最 邻近 的 对 象 。 

更 直观 地 ， 当 从 一 个 大 尺寸 图 像 中 随机 选取 一 小 块 ， 如 16 x 12 作为 样本 ， 并 且 从 这 
个 小 块 样本 中 学 习 到 了 一 些 特征 ， 这 时 可 以 把 从 这 个 16 x 12 样本 中 学 习 到 的 特征 作为 探 
测 器 ， 应 用 到 这 个 图 像 的 任意 地 方 中 。 特 别 地 ， 可 以 用 从 
16 x 12 样本 中 所 学 习 到 的 特征 与 原本 的 大 尺寸 图 像 作 卷 积 ， 
从 而 从 这 个 大 尺 才 图 像 上 的 任 一 位 置 获得 一 个 不 同 特征 的 激 
活 值 。 

为 了 理解 方便 ， 在 做 示例 时 进行 简化 。 如 图 15-22 所 示 
为 一 个 3x3 的 卷 积 核 在 5x5 的 图 像 上 做 卷 积 的 过 程 。 每 
Speo uen ae id debeo 图 15.22 一 个 3x3 的 卷 积 核 在 
合 条 件 (激活 值 越 大 越 符合 条 件 ) 的 部 分 筛选 出 来 ， 即 用 右 5x 5 的 图 像 上 做 卷 积 
侧 的 3x3 小 方块 从 上 到 下 从 左 到 右 地 套 左 侧 的 5x5 的 大 
方块 。 

分 别 得 到 9 个 矩阵， 如 图 15-23 所 示 。 

假设 设计 的 卷 积 核 也 是 一 个 矩阵 ， 如 图 15-24 所 示 。 

这 个 卷 积 核 输 出 的 结果 定义 为 用 卷 积 结果 和 矩阵 和 卷 积 核 
做 内 积 的 形式 : 





g(v)=wv 
其 中 "是 一 个 卷 积 结果 和 矩阵，w 是 卷 积 核 ， 那 么 整个 计 
算 就 变 成 了 数 方 格 的 问题 ， 也 就 是 这 9 幅 局 部 图 对 应 的 输出 
就 变 成 了 如 图 15-25 所 示 的 矩阵 。 图 15-23 ”得 到 9 个 矩阵 
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图 15-24 卷 积 核 图 15-25 ”对 应 的 输出 


到 这 里 卷 积 层 的 工作 就 已 经 完成 了 ， 就 是 通过 这 种 从 左 到 右 从 上 到 下 的 平移 来 看 平移 
过 程 中 卷 积 核 的 范围 内 应 该 提取 哪些 特征 值 。 这 个 过 程 似曾相识 ， 在 BP 神经 网 络 中 也 同样 
接触 过 ， 只 是 当时 用 的 网 络 是 全 连接 方式 。 

建议 卷 各 层 的 神经 元 节点 的 接收 输入 有 大 部 分 重 醉 ， 这 里 重 春 的 部 分 达到 了 o 
即 一 个 神经 卷 积 的 16 列 感 知 对 象 中 有 15 列 被 其 旁边 临近 的 神经 元 所 感知 ，12 行 感知 对 象 
中 有 11 行 被 其 旁边 临近 的 神经 元 所 感知 ， 重 又 比例 大 约 为 86%， 也 可 以 尝试 其 他 重 释 比 
例 ， 这 不 是 一 个 一 成 不 变 的 值 。 

2. 设计 采样 层 

采样 层 也 叫 池 层 (Pooling)， 它 的 目的 是 将 前 面 卷 积 层 输出 的 特征 提取 值 进 行 量化 。 

这 种 层 的 作用 是 继续 对 临近 的 输入 点 进行 特征 提取 ， 算 法 设计 也 不 固定 ， 可 以 是 求 平 
均值 ， 也 可 以 是 求 最 大 值 等 ， 总 之 就 是 把 在 前 面 卷 积 层 输出 的 矩阵 继续 进行 特征 化 。 

以 上 述 卷 积 层 作为 输入 ， 可 以 尝试 做 一 个 2x2 单 位 的 采样 层 ， 即 
用 右 侧 的 2 x 2 小 方块 从 上 到 下 从 左 到 右 地 套 左 侧 的 3 x 3 的 大 方块 ， 如 
图 15-26 所 示 。 

这 样 就 可 以 得 到 如 图 15-27 HZR AERE o 

每 一 个 节点 是 求 4 个 输入 的 平均 值 ， 这 样 根据 采样 层 的 输入 视图 求 





图 15-26 采样 层 





平均 则 分 别 得 到 输出 : 
(3434444) + 4-3.5 
(3+3+4+3 ) + 4=3.25 
4|4|4|3 
( 4-449544 ) + 4=4.25 


( 4434443 ) + 423.5 
这 就 是 采样 层 输出 的 结果 。 
同样 的 方式 可 以 应 用 于 更 大 的 图 片 处 理 ， 如 2 048 x 1 536 像素 的 图 片 。16 x12 的 卷 积 
核 和 3 x3 的 卷 积 核 原 理 完全 相同 。 
在 例子 中 ， 采 样 层 的 神经 元 节点 的 接收 输入 有 部 分 重 又 ， 这 里 用 2 x 2 的 采样 节点 去 做 


采样 重 共 的 部 分 达到 了 一 ， 也 可 以 尝试 不 重 芝 或 者 以 其 他 比例 进行 重 普 。 


图 15-27 ”结果 和 矩阵 


3. 完整 网 络 设计 
在 了 解 了 卷 积 层 和 采样 层 的 工作 方式 后 ， 要 对 完整 的 苹果 图 片 进行 识别 ， 卷 积 网 络 可 
ww ai bèt. com 0000000 
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以 设计 为 如 图 15-28 所 示 的 形式 。 
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图 15-28 神经 网 络 

卷 积 层 C1 : 可 以 设计 2 033 x1 525， 即 3 100 325 个 神经 元 节点 。 如 同 在 前 面 讨论 过 
的 连接 方法 。 

采样 层 S1 : 可 以 采用 不 重 芭 的 方式 进行 采样 ,设计 使 用 输入 参数 为 16 x 12 的 神经 节 
点 ， 那 么 需要 128 x 128， 即 16 384 个 节点 。 

卷 积 层 C2 : 这 里 可 以 再 设计 一 层 卷 积 层 进行 卷 积 处 理 ， 设 计 使 用 输入 参数 为 16 x 16 
的 神经 节点 ， 需 要 113 x 113， 即 12 769 个 节点 。 

采样 层 S2 : 可 以 继续 采用 不 重合 的 方式 进行 采样 处 理 ， 可 以 尝试 采用 8 x 8 的 输入 点 
数量 ， 那 么 需要 15 x 15 个 神经 元 节点 。 

输出 层 O: 最 后 的 输出 层 采用 全 连接 方式 。 由 于 前 段 的 采样 层 S2 输出 为 15x 15， 所 以 
这 一 层 应 该 采用 15 x 15 个 节点 ， 每 个 节点 有 15x15， 即 255 个 参数 。 这 255 个 参数 可 以 
考虑 用 高 位 128 位 都 标记 成 1， 低位 127 位 都 标记 成 0 来 表示 苹果 图 片 的 分 类 。 


4. 训练 

可 以 准备 1 000 张 其 至 更 多 的 苹果 图 片 ， 都 进行 向 量化 。 然 后 像 在 前 面 识别 图 片 那 样 来 
做 训练 即 可 。 

但 是 这 个 过 程 可 能 会 非常 漫长 ， 因 为 节点 数量 和 权 值 实在 是 太 多 了 。 

这 个 方法 在 PC 上 处 理 2 048 x 1 536 像素 的 图 片 是 有 学 术 意 义 的 ,但 是 以 目前 个 人 PC 
的 处 理 水 平 要 想 商用 是 很 困难 的 。 何 况 这 个 例子 中 做 的 还 仅仅 是 二 值 化 后 的 苹果 图 形 的 识 
别 而 不 是 RGB 深度 3 通道 下 的 识别 ， 可 想 而 知 这 个 训练 过 程 更 为 漫长 。 

一 般 来 说 ， 越 复杂 的 图 形 图 像 训练 需要 的 样本 越 多 。2012 年 6 H Google 最 神秘 的 部 门 
Google X 通过 1.6 万 片 处 理 器 ， 模 拟 10 亿 多 条 连接 ， 构 建 了 一 个 庞大 的 系统 ， 用 于 模拟 人 
类 的 大 脑 神经 网 络 。 借 助 “谷歌 大 脑 "， 无 须 接受 人 类 的 任何 培训 和 指令 ， 就 可 以 利用 内 在 
算法 从 海量 数据 中 自动 提取 信息 ， 学 会 如 何 识 别 猫 。 这 是 人 类 有 史 以 来 在 机 器 学 习 (也 有 人 
说 这 叫 深度 学 习 ) 中 所 做 的 最 有 益 的 尝试 之 一 。 面 对 从 YouTube 视频 中 找到 的 1 000 万 张 数 
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字 照 片 ， 这 个 “谷歌 大 脑 ”能 从 中 自主 学 习 猫 的 长 相 。 然 后 就 可 以 自己 对 其 他 给 它 的 图 片 
进行 判断 一 一 “这 张 是 猫 。 这 张 不 是 猫 。” 这 种 自学 成 才 的 能 力 别 说 在 当时 ， 就 是 在 现在 也 
颇 为 惊人 。 

这 种 对 图 像 、 影 像 、 声 音 做 自动 识别 的 能 力 ， 通 常 称 为 深度 学 习 。 


15.7 深度 学 习 


深度 学 习 ( Deep Learning)， 我 们 在 这 里 不 打算 讲 太 多 ， 只 是 提 一 下 我 对 这 个 名 词 的 理 
解 吧 。 

深度 学 习 不 是 一 种 算法 ， 而 是 一 种 新 的 境界 ， 说 它 是 新 的 领域 也 不 合适 ， 因 为 确实 也 
不 是 新 领域 ， 研 究 的 问题 还 是 老 问 题 。 

现在 研究 深度 学 习 的 人 很 多 ， 深 度 学 习 相 关 的 框架 体系 也 有 很 多 ， 如 深度 神经 网 络 
( Deep Neuron Networks，DNN )、 卷 积 神经 网 络 、 深 度 信念 网 络 (Deep Belief Networks, 
DBN) 和 递归 神经 网 络 (Recurrent Neural Network, RNN) 等 。 说 到 深度 学 习 ， 就 得 问 问 它 
的 反面 “ 浅 度 学 习 ” 说 的 是 什么 。 

相对 现在 提出 的 深度 学 习 的 概念 不 同 ， 过 去 研究 的 “ 浅 度 学 习 ” 更 多 是 针对 结构 化 数 
据 的 学 习 和 研究 ， 还 有 半 结 构 化 数据 的 学 习 和 研究 ， 模 型 简单 、 结 构 固 定 、 量 化 容易 ， 规 
模 小 。 这 些 用 过 去 的 统计 、 概 率 、 一 般 机 器 学 习 基 本 方法 都 能 得 到 比较 好 的 解决 方案 。 

但 是 随 着 计算 机 计算 能 力 的 发 展 ， 网 络 规模 的 逐渐 扩大 ， 存 储 能 力 的 不 断 提 高 ， 过 去 
时 间 复 杂 度 非常 高 的 不 可 行 的 方案 ， 慢 慢 也 就 变 得 可 行 了 ， 原 来 认为 解决 问题 不 能 成 行 的 
思路 ， 慢 慢 也 就 变 得 能 够 成 行 了 。 早 在 20 世纪 七 八 十 年 代 各 国 的 高 级 实验 室 就 都 在 研究 
能 不 能 做 大 规模 的 模式 识别 ， 不 管 是 用 大 规模 的 神经 网 络 去 做 图 片 的 机 器 学 习 ， 还 是 做 手 
写 识 别 ， 这 些 尝试 都 是 做 过 的 。 关 键 不 是 当时 的 数学 家 建 模 能 力 有 问题 ， 而 是 硬件 不 够 
强大 。 

这 些 深 度 学 习 的 共同 点 基本 上 就 是 网 络 输入 层 节 点 多 ， 网 络 层 次 深 支持 的 分 类 种 类 
多 而 复杂 。 大 部 分 还 是 围绕 着 神经 网 络 或 者 基于 神经 网 络 的 思路 来 发 展 的 ， 而 且 在 前 几 节 
都 有 过 相应 的 接触 。 既 然 趋势 是 支持 分 类 种 类 多 而 复杂 的 学 习 方 向 ， 那 么 以 有 限 向 无 限 的 
方向 前 进 ， 以 离散 向 连续 的 方向 前 进 的 发 展 就 随 着 客观 条 件 的 成 熟 变 得 越 来 越 现 实 。 所 以 
也 看 到 在 边界 划分 比较 清晰 的 声音 识别 、 图 像 识 别 、 棋 牌 博弈 等 领域 深度 学 习 的 效果 会 格 
外 好 ， 其 至 有 时 候 让 人 叹为观止 ,觉得 真正 的 人 工 智能 可 能 离 人 们 越 来 越 近 。 

就 在 成 书 前 不 久 发 生 了 几 件 在 深度 学 习 方 面 比较 震撼 的 事情 。 

事件 一 : 一 杆 进 洞 的 高 尔 夫 机 器 人 。 

TNW 中 文 站 2016 年 2 月 11 日 报道 ， 一 台 名 为 LDRIC 的 高 尔 夫 机 器 人 完成 了 一 
FFE Mi 1997 年 ， 传 奇 高 尔 夫 选 手 “ 老 虎 ” 伍 兹 也 曾 在 这 里 完成 同样 的 一 击 。 据 称 
LDRIC 是 “发 射 定向 机 器 人 智能 电路 ”的 英文 缩写 ， 同 时 也 是 对 伍兹 的 名 字 “ 埃 尔 德里 克 
(Eldrick)” 的 致敬 。 
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事情 二 : 围棋 AI 的 胜利 。 

英国 《自然 》 杂 志 2016 年 1 月 28 日 封面 文章 称 ， 美国 谷歌 公司 旗下 的 人 工 智能 软 
件 “ 阿 尔 法 围棋 ”( AlphaGo) 打败 了 欧洲 围棋 冠军 攀 府 (专业 二 段 )。 而 在 不 久 的 将 来 ， 
AlphaGo 将 在 韩国 首尔 与 韩国 围棋 选手 李 世 石 九段 一 决 高 下 ， 李 世 石 是 近 10 年 来 获得 世界 
第 一 头衔 最 多 的 棋 手 ,谷歌 为 此 提供 了 100 万 美元 作为 奖金 。 

在 笔者 截稿 前 也 就 是 北京 时 间 2016 年 3 月 15 日 下 午 17 时 10 分 左右 ， 李 世 石 九段 苦 
斗 5 盘 ,最 终 以 1 比 4 负 于 谷歌 的 人 工 智 能 机 器 人 AlphaGo。 这 不 仅 令 赛 前 断言 李 世 石 将 
以 5 比 0 大 胜 人 工 智能 的 人 们 大 跌眼镜 ， 而 且 也 大 大 提 振 了 人 们 对 于 人 工 智能 发 展 的 信心 。 

这 两 个 事件 可 以 说 是 让 人 非常 兴奋 的 ， 同 时 也 让 很 多 人 感到 紧张 ， 现 在 人 工 智能 的 发 
展 让 人 们 对 机 器 人 越 来 越 敬 旦 。 

确实 ， 这 些 原来 在 人 工 智能 领域 让 科学 家 感到 力不从心 的 问题 现在 越 来 越 让 人 感觉 轻 
松 。 除 了 数学 科学 的 发 展 以 外 ， 硬 件 本 身 的 制造 能 力 与 水 平 的 提高 ， 制 造成 本 的 下 降 ， 也 
让 越 来 越 多 的 复杂 问题 变 得 简单 。 然 而 ， 这 些 问 题 如 果 仔 细 观 察 可 以 发 现 ， 仍 然 是 一 些 边 
界 划 定 明确 的 问题 ， 不 管 是 打 高 尔 夫 球 的 机 器 人 ， 还 是 下 围棋 的 机 器 人 。 它 们 处 理 的 问题 
对 比 人 所 处 理 的 问题 来 说 ， 依 旧 非 常 单 纯 ， 模 型 维度 单纯 ， 游 戏 规则 也 单纯 ， 和 过 去 处 理 
的 问题 来 对 比 只 是 数据 量 比较 大 而 已 ， 没 有 太 多 新 鲜 的 东西 。 在 人 们 明确 告诉 计算 机 应 该 
怎么 去 计算 ,什么 步骤 ， 什 么 规则 ， 而 遗留 的 问题 仅仅 是 计算 量 的 情况 下 ,计算 机 完全 可 
以 通过 分 布 式 计算 方式 来 进行 弥补 ， 并 逼近 或 超过 人 类 的 水 平 。 但 是 对 于 那些 人 类 现在 都 
不 清楚 究竟 应 该 怎样 告诉 计算 机 建 模 ， 应 该 用 怎么 样 的 步骤 来 计算 的 场合 ， 计 算 机 是 没有 
办 法 去 理解 问题 本 身 的 奥妙 的 ， 就 更 别 说 像 人 类 这 么 丰富 协调 地 感知 和 对 应 反馈 了 。 

应 该 说 ， 现 在 的 深度 学 习 水 平和 真正 的 理想 的 人 工 智 能 相差 还 是 太 悬 珠 一 一 尽管 它 的 
发 展 确 实 很 迅速 ， 但 是 还 是 初级 、 割 裂 而 且 片 面 的 。 真 正 要 达到 像 人 这 样 智能 的 生命 体 的 
水 平 ， 慌 怕 只 有 让 计算 机 的 计算 单元 在 数量 级 上 与 人 的 大 脑 基 本 相当 ， 甚 至 要 超过 大 脑 几 
个 数量 级 。 所 以 担心 机 器 人 造反 的 事情 ， 等 到 这 个 前 提 实 现 再 开始 也 不 算 晚 。 





15.8 ”小结 


在 学 习 了 回归 、 朴 素 贝 叶 斯 、 决 策 树 、 支 持 向 量 机 ， 以 及 本 章 讨论 的 人 工 神经 网 络 以 
后 ， 可 以 发 现 ， 这 些 算法 的 思路 都 有 一 个 共同 点 ， 说 到 底 都 是 研究 多 维 向 量 空间 分 类 的 问 
题 ， 都 是 根据 众多 的 v (a, b, c, d, --) 这 样 的 训练 样本 到 某 一 个 或 几 个 分 类 映射 的 关系 ， 
判断 新 的 给 定 样 本 的 分 类 归属 问题 。 

每 种 算法 都 有 自己 优势 ， 也 都 有 自己 的 局 限 性 。 这 就 好 比 一 个 很 大 的 工具 箱 ， 里 面 有 
电 饮 、 钢 饮 、 线 饮 等 各 种 锯 子 ， 它 们 都 是 锯 子 ， 都 是 为 了 最 终 把 一 段 原 木 变 成 一 件 精 美的 
家 具 ， 但 是 每 种 工具 都 有 自己 擅长 的 场合 ， 还 有 一 些 自己 不 擅长 的 场合 。 人 们 要 做 的 事情 
就 是 掌握 每 种 工具 的 优 缺 点 ， 所 谓 “ 尺 有 所 短 寸 有 所 长 ”， 在 不 同 的 场合 选用 不 同 的 工具 ， 
并 注意 同时 规避 不 同 工 具 的 问题 ， 这 样 就 能 达到 事半功倍 的 效果 。 
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大 数据 框架 简介 


16.1 著名 的 大 数据 框架 


框架 (Frame) 是 一 个 在 计算 机 领域 常用 的 词汇 。 : 

熟悉 PHP, Java 或 者 Python 的 读者 对 这 个 词 肯 定 非常 熟悉 ，Laravel、Spring、Django 
等 都 是 著名 的 语言 开发 框架 。 

每 一 个 框架 中 都 封装 了 大 量 的 工具 类 ， 它 的 最 大 作用 就 是 帮助 使 用 者 节省 创建 工程 的 
时 间 ， 把 大 家 共通 性 的 需求 和 问题 做 以 实现 。 这 样 创建 工程 时 ， 程 序 员 就 只 需要 进行 类 似 
搭 积 木 式 的 工作 就 能 够 把 需求 完成 。 这 就 是 框架 的 作用 。 

大 数据 框架 与 此 类 同 ， 就 是 用 来 简化 数据 科学 家 和 数据 开发 工程 师 编程 难度 的 一 种 工具 。 

按照 最 早 最 朴素 的 方式 理解 大 数据 的 含义 : 大 数据 解决 的 就 是 单机 无 法 处 理 的 数据 。 
无 论 存储 数据 还 是 计算 数据 都 变 得 困难 无 比 ， 大 数据 框架 的 出 现 就 是 为 了 解决 这 个 问题 ， 
让 使 用 者 可 以 像 使 用 本 地 主机 一 样 使 用 多 个 计算 机 的 处 理 器 ， 像 使 用 一 个 本 地 磁盘 一 样 使 
用 一 个 大 规模 的 存储 集群 。 这 样 可 以 让 科学 家 和 工程 师 把 精力 集中 在 自己 的 业务 上 ， 在 需 
要 并 行 计 算 时 调用 大 数据 框架 的 应 用 程序 接口 (API)， 这 就 是 大 数据 框架 的 作用 。 

生活 中 也 有 很 多 框架 的 例子 : 如 去 银行 办 理 业 务 ， 需 要 填写 不 同 的 表格 ， 这 些 表格 就 
是 框架 化 的 典型 例子 ; 如 发 送 通知 邮件 ， 会 有 通知 邮件 的 通用 格式 ， 只 需要 填写 时 间 、 地 
点 、 人 物 、 事 件 …… 这 些 框 架 的 共通 特点 就 是 ， 只 需要 关注 多 态 化 的 事务 ， 把 这 些 个 性 化 
的 信息 当做 参数 ， 共 通 的 部 分 已 经 做 成 了 框架 。 

大 数据 也 包含 很 多 种 类 的 框架 ,一 般 分 成 两 类 ， 即 大 数据 计算 框架 和 大 数据 存储 框架 。 

大 数据 计算 框架 又 可 以 按照 执行 方式 分 成 两 类 : 一 类 是 执行 一 次 就 结束 的 、 对 计算 时 
间 要 求 不 高 的 离线 计算 框架 ， 另 一 种 是 对 处 理 时 间 有 严格 要 求 的 实时 计算 框架 。 
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离线 计算 多 用 于 模型 的 训练 和 数据 的 预 处 理 ， 最 经 典 的 就 是 Hadoop 的 MapReduce 
方式 了 ; 而 实时 计算 框架 是 要 求 立即 返回 计算 结果 的 ， 快 速 响 应 请 求 ， 如 Storm, Spark 
Streaming 等 框架 ， 多 用 于 简单 的 累加 计数 和 基于 训练 好 的 模型 进行 分 类 等 操作 。 

无 论 是 离线 计算 还 是 实时 计算 ,都 需要 持久 地 保存 大 量 的 清洗 过 的 数据 和 计算 结果 ， 
这 就 需要 大 数据 存储 框架 来 解决 了 。 

经 典 的 Hadoop HDFS 就 具备 了 动态 扩容 以 及 元 余 化 存储 (存储 多 份 数据 ) 的 能 力 。 这 
样 既 能 保证 数据 源 增 大 时 用 户 仍 然 可 以 像 操 作 本 地 磁盘 一 样 操作 HDFS， 又 可 以 保证 计算 结 
果 的 安全 性 ， 它 是 在 大 数据 存储 中 最 主流 的 解决 办 法 之 一 。 

除了 计算 和 存储 ， 在 完整 的 处 理 过 程 中 ， 会 加 入 一 些 NoSQL 存储 和 一 些小 工具 来 提升 
用 户 的 使 用 体验 ， 毕 竞 世 界 并 不 是 全 部 由 结构 化 数据 组 成 的 。 在 大 数据 计算 中 要 缓存 一 些 
中 间 结 果 或 者 进行 快速 的 批量 写 和 操作， 那么 我 们 会 在 计算 和 存储 之 间 加 入 NoSQL 存储 引 
擎 来 存储 需要 的 结果 。 再 配合 一 些 对 传统 SQL 优化 的 工具 ,使 SQL 适用 于 体积 更 大 的 数 
据 ， 就 完成 了 大 数据 框架 的 大 部 分 流程 了 。 下 面具 体 介 绍 这 些 常 用 的 框架 。 


16.2 Hadoop 框架 

将 Hadoop 称 作 框架 其 实 并 不 准确 ， 更 多 人 喜欢 称 Hadoop 为 生态 圈 ， 因 为 它 除 了 有 计算 
和 存储 功能 外 还 提供 了 相当 多 的 组 件 ， 来 完成 大 数据 方方面面 的 工作 。Hadoop 生态 圈 的 组 件 
非常 多 ， 图 16-1 所 示 为 Hadoop 1.0 环境 中 的 生态 圈 组 成 ， 疏 虫 工具 、 集 群 化 存储 、 工 作 流 、 
数据 流 、 交 互 式 脚本 、NoSQL 数据 库 、 数 据 仓 库 、 数 据 挖 所 框架， 几乎 是 应 有 尽 有 。 


Hadoop Ecosystem Map 
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图 16-1 Hadoop 生态 圈 
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现在 在 生产 环境 中 ， 通 常 使 用 Hadoop 2.0 环境 。 通 常 说 的 Hadoop 只 是 其 中 最 核心 的 
框架 ， 主 要 分 为 以 下 4 个 部 分 。 

(1) Hadoop Common : 这 是 Hadoop 的 核心 功能 ， 是 对 其 他 的 Hadoop 模块 做 支撑 的 ， 
里 面包 含 了 大 量 的 对 底层 文件 、 网 络 的 访问 ， 对 数据 类 型 的 支持 ， 以 及 对 象 的 序列 化 、 反 
序列 化 的 操作 支持 等 。 

( 2) Hadoop Distributed File System ( HDFS'") : Hadoop 分 布 式 文件 系统 ， 也 就 是 上 面 
提 到 的 HDFS， 它 用 于 存储 大 量 的 数据 。 

(3) Hadoop YARN: 一 个 任务 调度 和 资源 管理 的 框架 。 

(4) Hadoop MapReduce: 基于 YARN 的 并 行 大 数据 处 理 组 件 。 

请 注意 Hadoop 1.0 和 Hadoop 2.0 的 区 别 ， 如 图 16-2 所 示 。Hadoop 1.0 环境 的 MapReduce 
是 直接 运行 的 ，Hadoop 2.0 环境 的 MapReduce 依赖 于 YARN 框架 ， 在 YARN 框架 启动 后 ， 
MapReduce 在 需要 运行 的 时 候 把 任务 提交 给 YARN 框架 ， 让 YARN 框架 来 分 配 资源 择机 运 
行 ， 这 是 两 者 最 大 的 区 别 。 


Hadoop 1.0 Hadoop 2.0 


MapReduce 
(cluster resource management 
& data processing) 





(a) Hadoop 1.0 (b) Hadoop 2.0 
图 16-2 Hadoop 1.0 fll Hadoop 2.0 


一 般 把 Hadoop Common, HDFS, YARN, MapReduce 这 四 部 分 统称 为 Hadoop 框 
架 ， 而 在 Hadoop 生态 环境 中 还 有 进行 SQL 化 管理 HDFS 的 Hive 组 件 ， 支 持 OLTP 业务 的 
NoSQL 分 布 式 数据 库 HBase 组 件 ， 进 行 图 形 界 面 管理 的 Ambari 组 件 等 ，Hadoop ESAS 
增加 越 来 越 多 的 软件 ， 提 高 软件 的 便利 性 。 


16.2.1 MapReduce 原理 

之 前 介绍 了 Hadoop EAF Hadoop 框架 ， 相 信 读 者 对 Hadoop 是 什么 有 了 一 定 的 了 
解 ， 那 么 在 Hadoop 框架 中 最 著名 的 就 是 MapReduce 组 件 ， 它 的 处 理 逻 辑 来 源 于 谷歌 的 旧 
—Hu 4 ..— MapReduce?. MapReduce 是 解决 问题 并 行 任务 的 一 种 模型 ， 将 一 个 可 拆 
解 的 任务 分 散 到 多 个 计算 节点 进行 计算 ， 最 后 合并 计算 结果 。 

例如 ， 现 在 需要 解决 一 个 问题 : 尽 可 能 以 比较 快 的 速度 统计 一 个 图 书馆 在 书架 上 一 共 


O 谷歌 的 旧 三 外 马车 是 GFS、MapReduce、BigTable， 新 三 驾 马车 是 Caffeine 、Pregel 、Dremel。 
0 
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陈列 了 多 少 本 书 (16-3). 





分 别 统 计 然 后 合计 
N 






图 16-3 统计 图 书馆 的 书 ( 见 彩 插 ) 


一 种 方法 是 ， 找 一 个 在 数 数 方面 有 超 高 本 领 的 人 ， 由 他 一 个 人 来 完成 ; 另 一 种 方法 是 ， 
雇用 一 大 批 资质 平庸 的 负责 统计 图 书 数量 的 人 和 一 个 负责 分 配 任务 的 人 ， 由 分 配 任务 的 人 
负责 划分 区 域 ， 确 保 每 个 人 都 分 到 一 部 分 要 统计 的 书架 ， 不 重 不 漏 。 然 后 对 所 有 的 人 下 发 
开始 统计 的 指令 ， 统 计 图 书 的 人 将 自己 负责 的 区 域 统计 完成 记录 到 纸 上 ， 所 有 统计 图 书 的 
人 上 交 统 计 结 果 后 ， 负 责 分 配 任务 的 人 将 所 有 人 的 统计 结果 进行 累加 ， 得 到 图 书 统计 的 结 
果 。 如 果 中 途 有 人 因为 一 些 意外 原因 发 生计 数 终 止 ， 那么 就 再 派 一 个 人 前 去 重新 完成 他 未 
完成 的 工作 任务 。 

不 难 想象 ， 如 果 方 法 得 当 ， 后 一 种 方法 要 比 前 一 种 方法 靠 谱 一 些 。 

这 个 有 超 高 本 领 的 人 是 不 是 容易 被 找到 ， 他 一 个 人 会 不 会 有 失误 ， 他 的 薪水 要 求 是 不 
是 太 高 ， 这 些 问题 的 可 控 性 会 变 得 非常 不 好 。 而 资质 平庸 的 人 通常 在 市 场 供应 方面 不 会 让 
我 们 那么 担心 ， 只 要 统计 的 方法 论 和 调度 方式 没有 问题 ， 不 仅 这 种 方式 的 风险 更 小 ， 而 且 
成 本 更 低 ， 速 度 更 快 ，MapReduce 就 是 这 样 一 种 并 行 机 制 。 

下 面 从 辩证 的 角度 来 看 这 种 机 制 的 优点 和 缺点 。 

优点 如 下 。 

(1 ) 隐藏 大 量 技术 细节 。 开 发 人 员 不 需要 关注 容 灾 管 理 、 负 载 均衡 和 并 行 计 算 实 现 的 
代码 部 分 ， 只 需要 调用 相关 的 API， 设 置 参数 即 可 。 

(2) 可 伸缩 性 好 。 在 Map 阶段 ， 可 以 实现 每 增加 一 台 服 务 器 就 将 计算 能 力 接 人 到 集 
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群 里 ， 而 且 能 实现 在 集群 运行 时 添加 计算 节点 (一 般 用 在 线 扩容 这 个 技术 名 词 来 描述 这 一 
特点 )。 

缺点 如 下 。 

(1) 实时 性 差 。 和 磁盘 交互 频繁 ， 中 间 要 多 次 将 计算 结果 保存 到 磁盘 ， 使 实时 计算 能 
力 大 打折 扣 。 

(2) 编程 习惯 需要 适应 。 需 要 将 在 学 习 《 数 据 结构 》 或 者 算法 理论 中 学 习 到 的 算法 实 
现 方式 转换 成 为 MapReduce 方式 ， 编 程 时 需要 特意 构建 这 种 程序 逻辑 。 而 且 这 种 方式 的 局 
限 性 导致 并 非 所 有 的 问题 都 适合 用 MapReduce 方式 进行 解决 。 

虽然 有 不 少 缺点 ， 但 是 Hadoop 仍然 是 目前 离线 计算 的 利器 ， 下 面 介绍 如 何 部 署 一 套 
Hadoop 以 及 用 ,Hadoop 来 做 单词 统计 。 


16.2.2 ”安装 Hadoop 
本 节 主 要 介绍 在 CentOS 7 单机 环境 下 的 Hadoop 搭建 过 程 。 


1. 准备 Hadoop 需要 的 软件 

C1) 安装 Java 软件 包 。CentOS 7 发 行 版 本 默认 会 安装 Java 运行 环境 ， 可 以 使 用 which 
命令 来 确认 Java 是 否 安装 ， 命 令 如 下 : 

$ which java 

/usr/bin/java 


也 可 以 自行 下 载 和 安装 自己 需要 的 Java 版 本 ， 建 议 Java 版 本 高 于 7.0. 
这 里 使 用 从 官方 网 站 下 载 的 最 新 版 本 的 Java 开 发 包 ， 下 载 地 址 : http://www.oracle. 
comy/technetwork/cn/java/javase/downloads/index.html。 


将 下 载 好 的 安装 包 安装 到 指定 位 置 ， 这 里 以 保存 到 /opt 目录 下 为 例 ， 操 作 命令 如 下 : 


$ tar zxf java-jdk-7.0.tgz 
$ mv java-jdk-7* /opt/java 


设置 环境 变量 “JAVA HOME”， 这 个 变量 用 来 指定 Java 程序 的 工作 目录 。 在 /etc/ 
bashrc 目录 下 添加 Java 安装 目录 ， 命 令 如 下 : 


export JAVA HOME=/opt/java 


(2) 设置 SSH 通过 秘 钥 方 式 访问 。Hadoop 多 个 节点 之 间 通 信 会 采用 SSH 秘 钥 认 证 方 
式 ， 为 避免 每 次 通信 都 需要 用 户 输入 密码 ， 这 里 需要 生成 一 对 SSH 秘 钥 ， 生 成 秘 钥 使 用 如 
下 命令 : 

$ ssh-keygen -t rsa 

$ cat -/.ssh/id rsa.pub »» -/.ssh/authorized keys 

$ chmod 600 -/.ssh/authorized keys 

(3) FÆ Hadoop 软件 包 。 访 问 http://hadoop.apache.org/releases.htmlDownload, iX 
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里 提供 了 多 个 版 本 的 Hadoop 软件 包 下 载 ， 建 议 读 者 测试 和 开发 时 使 用 最 新 的 稳定 版 本 
(Stable)， 这 里 以 2.6.4 版 本 为 例 ， 下 载 位 置 如 图 16-4 所 示 。 


Search with Ap| 








Apache Hadoop Releases 


Download 


Hadoop is released as source code tarballs with corresponding binary tarballs for convenience. The downloads are distributed via mirror sitd 
for tampering using GPG or SHA-256. 


11 February, 2016 3 T o signature F755D961 18316335., 


Y C58F08D2 E0B1303 
25 January, 2016 N mee signature 704BE61B 5464A765.. 
cense signature 49AD740F B5D27FA3.. 
Documentation 6. 17 Dec, 2015 signature FA0C71B5 CB33A7FD.. 
Related Projects signature ADAB3D8C 2FF72D46.. 
28 Oct, 2015 source signature 6995A4AB OFCE910: 
signature 56F630D7 0D4C . 
06 July, 2015 source Signature 53F3001C 457AD8FD.. 
t signature 991DC34E A42A8082.. 
19 Nov, 2014 S signature 139EF872 09C5637E.. 


signature 08084850 A3825208. 


To verify Hadoop releases using GPG: 


. Download the release hadoop-X.Y.Z-src.tar.gz from a mirror site. 
. Download the signature flle hadoop-X.Y.Z-src.tar.gz.asc from Apache. 
. Download the Hadoop KEYS file. 


gpg --import KEYS 
gpg --verify hadoop-X.Y.Z-src.tar.gz.asc 





图 16-4 下 载 位 置 
下 载 完成 后 将 Hadoop 解压 缩 到 /opt 目录 ， 并 设置 环境 变量 指向 Hadoop 的 安装 目录 。 


tar zxf hadoop-2.6.4.tar.gz -C /opt 
echo 'export HADOOP HOME-/opt/hadoop-2.6.4' »» /etc/bashrc 


$ 

$ 

$ source /etc/bashrc 

$ cd S$HADOOP HOME 4 3tA Hadoop 安装 目录 可 以 看 到 编译 好 的 文件 


2. 修改 配置 文件 并 启动 服务 

(1) 修改 Hadoop HDFS 配置 文件 。 接 下 来 需要 设置 Hadoop 的 配置 文件 ， 这 种 单机 运 
行 的 模式 也 称 作 伪 分 布 模式 ， 和 集群 模式 略 有 区 别 。 这 里 使 用 伪 分 布 模式 进行 部 署 。 修 改 
如 下 配置 文件 。 

(D $HADOOP HOME/etc/hadoop/core-site.xml., 

«configuration» 

<property> 


«name»fs.defaultFS«/name» 
«value»hdfs://localhost:9000-/value» 
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«/property» 
«/configuration» 


(2 $HADOOP HOME/etc/hadoop/hdfs-site.xml. 


«configuration» 

«property» 
«name»dfs.replication«/name» 
«value»1«/value» 

«/property» 

«/configuration» 


( 2) 启动 Hadoop HDFS 服务 。 
D 首次 启动 格式 化 存储 空间 。 
$ cd SHADOOP_HOME 


$ bin/hdfs namenode -format 


© 启动 NameNode 和 DataNode 进程 。 


$ cd $HADOOP HOME 
$ sbin/start-dfs.sh 


© 验证 端口 是 否 局 动 。 
$ netstat -ntpl | grep 9000 


(3) 修改 Hadoop YARN 配置 文件 。 
(D$HADOOP HOME/etc/hadoop/mapred-site.xml。 


«configuration» 

«property» 
«name»mapreduce.framework.name«/name- 
«value»yarn«/value» 

«/property» 

«/configuration» 


(2 $HADOOP HOME/etc/hadoop/yarn-site.xml 


«configuration» 

«property» 
«name»yarn.nodemanager.aux-services«/name» 
«value»mapreduce shuffle</value> 
</property> 

</configuration> 


(4) 启动 Hadoop YARN 服务 。 
CD 启动 命令 如 下 : 


$ cd $HADOOP HOME 
$ sbin/start-yarn.sh 
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@ 验证 端口 是 否 启动 。 
$ netstat -ntpl | grep 8088 


伪 分 布 方式 配置 起 来 非常 简单 ， 多 用 于 开发 环境 部 署 ， 接 下 来 就 对 伪 分 布 环境 进行 
测试 。 


16.2.3 ”经典 的 WordCount 


提 到 大 数据 的 计算 能 力 测 试 ， 就 一 定 会 有 最 经 典 的 单词 统计 ， 因 为 它 可 以 充分 发 挥 各 
个 节点 的 计算 能 力 ， 由 于 Hadoop 采用 Java 开发 ， 这 里 提供 官方 的 WordCount 源 代码 。 


1. 源 代码 
( 1) WordCount.java 文件 源 代码 如 下 : 


import java.io.IOException; 

import java.util.StringTokenizer; 

import org.apache.hadoop.conf.Configuration; 

import org.apache.hadoop.fs.Path; 

import org.apache.hadoop.io.IntWritable; 

import org.apache.hadoop.io.Text; 

import org.apache.hadoop.mapreduce.Job; 

import org.apache.hadoop.mapreduce.Mapper; 

import org.apache.hadoop.mapreduce.Reducer; 

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; 
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; 


public class WordCount { 
public static class TokenizerMapper 
extends Mapper«Object, Text, Text, IntWritable»( 
private final static IntWritable one - new IntWritable(1); 
private Text word - new Text(); 
public void map(Object key, Text value, Context context 
)throws IOException, InterruptedException { 
StringTokenizer itr - new StringTokenizer(value.toString()); 
while (itr.hasMoreTokens ()) ( 
word.set(itr.nextToken()); 
context.write(word, one); 


} 
) 


public static class IntSumReducer 
extends Reducer-«Text,IntWritable,Text,IntWritable» ( 
private IntWritable result - new IntWritable(); 
public void reduce (Text key, Iterable-IntWritable» values, 
Context context 
)throws IOException, InterruptedException ( 
int sum - O0; 
for(IntWritable val : values){ 
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sum «- val.get(); 

} 

result.set (sum); 

context .write (key, result); 


} 


public static void main(String[] args) throws Exception { 
Configuration conf - new Configuration(); 
Job job - Job.getInstance(conf, "word count"); 
job.setJarByClass (WordCount.class); 
job.setMapperClass (TokenizerMapper.class); 
job.setCombinerClass (IntSumReducer.class); 
job.setReducerClass (IntSumReducer.class); 
job.setOutputKeyClass (Text.class); 
job.setOutputValueClass(IntWritable.class); 
FilelnputFormat.addInputPath(job, new Path(args[01)); 
FileOutputFormat.setOutputPath(job, new Path(args[11)); 
System.exit(job.waitForCompletion(true) ? 0 : 1); 
} 

} 


( 2) 确保 /etc/bashrc 包含 以 下 环境 变量 。 


export JAVA HOME=/opt/java 
export PATH-$JAVA HOME/bin: SPATH 
export HADOOP CLASSPATH-$JAVA HOME/lib/ tools.jar 


(3) 编译 代码 。 


$ bin/hadoop com.sun.tools.javac.Main WordCount.java 
$ jar cf wc.jar WordCount*.class 


(4) 准备 要 统计 的 文件 。 
$ cd $HADOOP HOME 
(D 创建 测试 文件 。 


$ echo "Hello World Bye World" > fileO1 
$ echo "Hello Hadoop GoodBye Hadoop" » file02 


© 将 测试 文本 放 入 HDFS 的 /input 目录 。 


$ bin/hdfs dfs -mkdir /input 
$ bin/hdfs dfs -put fileO* /input 


(5) 开始 统计 。 
$ bin/hadoop jar wc.jar WordCount /input /output 
在 终端 上 能 看 到 Map 和 Reduce 的 进度 。 


$ bin/hdfs dfs -cat /output/part-r-00000 
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输出 结果 如 下 : 


Bye 1 
Goodbye 1 
Hadoop 2 
Hello 2 
World 2 


在 计算 过 程 中 ， 所 看 到 的 Map() 和 Reduce() 的 进度 就 是 将 统计 的 所 有 内 容 映 射 到 指定 
的 内 存 块 中 ， 如 果 Hadoop 使 用 集群 环境 ， 这 些 计 算 会 分 布 到 不 同 的 主机 上 实现 并 行 处 理 。 

2. 原理 解释 

MapReduce 的 过 程 非常 复杂 ， 高 手 们 通常 喜欢 直接 翻 看 官方 的 文档 和 源 代码 。 

作为 入 门 手册 ， 这 里 只 对 MapReduce 的 过 程 中 发 生 的 逻辑 性 的 操作 进行 解释 ， 读 者 明 
白 原 理 了 就 知道 怎么 用 了 。 

一 次 完整 的 MapReduce 计算 处 理 过 程 从 大 的 环节 上 分 为 两 个 部 分 ， 即 Map 和 Reduce。 
完整 的 流程 是 一 个 从 前 到 后 的 处 理 流 ， 如 图 16-5 所 示 。 


Cres J» (Ci 


图 16-5 ”处理 流程 





Map 的 处 理 过 程 如 下 。 
第 一 步 : 把 输入 文件 读 进 来 。 
第 二 步 : 输出 构造 一 个 Key-Value 文件 。 
这 一 步 很 重要 ， 因 为 大 部 分 逻辑 都 是 在 Reduce 中 完成 的 ， 所 以 在 Map 的 部 分 实际 要 完 
成 对 Reduce 操作 内 容 的 迎合 性 构造 ， 让 Reduce 能 够 处 理 以 Key-Value 对 形成 的 文件 内 容 。 
以 刚刚 的 WordCount 为 例 : 
public void map (Object key, Text value, Context context 
) throws IOException, InterruptedException { 
StringTokenizer itr - new StringTokenizer(value.toString()); 
while (itr.hasMoreTokens ()) ( 


word.set(itr.nextToken()); 
context.write(word, one); 


) 


这 一 段 程序 做 了 一 件 事 ， 就 是 把 输入 的 文件 用 空格 进行 了 切割 ， 然 后 把 切割 完毕 后 得 
到 的 每 个 词 都 输出 成 

词 one 
的 形式 。 


构造 的 输入 文件 是 file01 和 file02 : 


Hello World Bye World 
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Hello Hadoop GoodBye Hadoop 
所 以 中 间 结 果 部 分 输出 的 文件 实际 上 变 成 了 


Hello one 
World one 
Bye one 
World one 
Hello one 
Hadoop one 
GoodBye one 
Hadoop one 


为 了 让 Reduce 可 以 分 段 处 理 ， 还 做 了 一 个 排序 。 这 里 需要 强调 的 是 ， 排 序 实 际 上 不 是 
这 么 做 的 ， 这 里 这 么 写 完全 是 为 了 容易 理解 。 


Bye one 
GoodBye one 
Hadoop one 
Hadoop one 
Hello one 
Hello one 
World one 
World one 


Reduce 的 处 理 过 程 如 下 。 

第 一 步 : 把 文件 读 进来 。 

第 二 步 : 对 一 个 Key 的 文本 部 分 进行 处 理 。 

Reduce 最 核心 的 代码 如 下 : 

public void reduce (Text key, Iterable«IntWritable» values, 
Context context 
) throws IOException, InterruptedException { 
int sum = 0; 


for (IntWritable val : values) { 
sum «- val.get(); 


) 


result.set(sum); 
context.write(key, result); 


) 
这 部 分 代码 在 做 一 个 循环 ， 只 是 不 是 遍历 整个 TEMP 文件 ， 而 是 只 能 看 到 其 中 一 个 
Key 所 覆盖 的 部 分 ， 不 同 的 Key 会 被 分 给 不 同 的 Reduce 程序 实例 。 
也 就 是 说 ， 在 刚刚 这 个 例子 中 ， 会 有 5 E Reduce 程序 实例 被 启动 ， 它 们 会 被 框架 分 配 
到 不 同 的 节点 (如 果 有 ) 分 别处 理 。 
Partl : 


Bye one 
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Part2 : 
GoodBye one 
Part3: 


Hadoop one 
Hadoop one 


Part4: 


Hello one 
Hello one 


Part5: 


World one 
World one 


这 样 5 段 输入 文件 分 别 产生 的 输出 结果 如 下 。 
Partl : 

Bye 1 

Part2: 

GoodBye 1 

Part3: 

Hadoop 2 

Part4 : 

Hello 2 

Part5: 

World 2 

最 后 一 步 就 是 进行 合并 ， 输 出 结果 文件 : 
Bye 1 

Goodbye 1 

Hadoop 2 

Hello 2 


World 2 


整个 过 程 就 像 在 图 书馆 里 数 图 书 数量 一 样 ， 多 个 人 一 起 做 ， 最 后 做 一 个 合并 。Map 和 
Reduce 在 一 次 运行 的 过 程 中 都 可 能 会 有 多 个 实例 出 现 ， 每 个 实例 处 理 一 部 分 数据 ， 通 过 彼 
此 协同 完成 整个 海量 数据 的 计算 操作 。 


wwaibbt.com 0000000 
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WordCount 是 MapReduce 入 门 最 经 典 的 例子 。MapReduce 所 能 处 理 的 事物 也 远 比 这 个 
例子 复杂 ， 甚 至 可 以 出 现 MapReduce 之 后 紧 跟 一 个 MapReduce， 类 似 用 管道 进行 处 理 的 方 
式 。 有 兴趣 的 读者 可 以 在 网 上 寻找 更 多 关于 MapReduce 示例 。 





16.3 Spark 框架 


Spark 框架 是 一 个 快速 上 且 API 丰富 的 内 存 计算 框架 。Spark 采用 Scala 语言 编写 ，Scala 
是 基于 JVM 的 语言 ， 性 能 开销 小 。 

在 Spark， 一 切 计算 都 是 基于 RDD 句柄 来 进行 操作 的 。RDD 就 像 一 个 数据 容器 ， 可 以 
有 输入 口 ， 可 以 有 输出 口 。 在 内 存 中 ，Spark 使 用 Tachyon 一 一 一 种 类 似 于 内 存 中 的 HDFS 
的 内 存 分 布 式 存储 框架 ， 这 样 使 得 读 写 速度 有 了 极 大 的 提高 (官方 说 是 100 倍 )。 

Spark 提供 了 大 量 的 应 用 程序 接口 ， 如 Python, Scala, Java 以 及 SQL 接口 ， 还 可 以 使 
用 HDFS、Hive、Cassandra 等 作为 数据 源 ， 它 的 外 部 接口 非常 丰富 ， 而 且 自 身 支持 了 很 多 
组 件 ， 主 要 组 件 如 图 16-6 所 示 。 









图 16-6 Spark 的 组 件 


1. Spark Core 
Spark Core 是 指 Spark 的 核心 功能 ， 包 括 任务 调度 、 内 存 分 配 回收 、RDD (弹性 分 布 式 
数据 集 ，Resilient Distributed Dataset) 操作 、API 处 理 等 ， 是 Spark 的 核心 组 件 。 


2. Spark SQL 

Spark SQL 最 早 采用 了 Apache Hive 的 SQL 版 本 ， 当 时 被 称 作 Shark， 它 可 以 让 用 户 通 
过 SQL 来 操作 RDD， 而 且 能 够 支持 交互 方式 的 数据 访问 。 但 是 因为 效率 不 高 ， 在 1.0 版 本 
重新 编写 了 Spark SQL 来 取代 HQL (Hive 版 本 的 SQL， 也 有 的 资料 上 会 写作 HiveQL), 使 
用 SQL 操作 Spark RDD 大 大 降低 了 Spark 编程 的 难度 。 


3. Spark Streaming 
Spark Streaming 是 流 式 计 算 组 件 。 在 Spark Streaming 里 ， 流 处 理 实际 用 的 是 Micro- 
Batch 的 方式 ， 即 微 批 处 理 。 什 么 是 Micro-Batch ? Batch 是 批 处 理 的 意思 ， 就 是 一 次 性 处 
理 需 要 的 事务 ， 中 间 不 需要 和 人 进行 交互 。 而 Micro-Batch 处 理 的 对 象 是 以 毫秒 为 单位 的 微 
小 的 批 处 理 。 
可 以 在 内 存 里 把 输入 的 流 数 据 “ 攒 ” 够 1 秒 、2 秘 或 者 其 他 时 间 长 度 ， 然 后 把 攒 起 来 
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的 数据 当做 一 个 RDD 块 。 一 个 RDD 块 上 能 够 进行 什么 计算 和 操作 ， 那 么 这 个 Micro-Batch 
上 就 能 够 进行 同样 的 计算 和 操作 。 为 了 避免 提交 作业 过 于 频繁 而 导致 开销 占 比 过 大 的 问题 ， 
通常 不 推荐 去 做 毫秒 级 别 的 Micro-Batch ， 请 大 家 注意 这 点 。 


4. MLlib 

MLlib 是 Spark 的 机 器 学 习 (ML) 组 件 ， 提 供 了 大 量 的 可 集群 化 的 算法 ， 包 括 聚 类 、 
分 类 、 逻 辑 回归 、 协 同 过 滤 等 。 

5. GraphX 

GraphX 是 可 以 进行 集群 化 的 图 形 计算 和 图 形 控 气 组件。 这 种 组 件 非常 适合 用 于 微 信 、 
微 博 等 各 种 社交 网 络 产品 的 用 户 关系 或 者 产品 关系 计算 ， 这 上 比 用 笛 卡 儿 积 的 方式 去 做 还 是 
轻 量 很 多 。 

这 些 封装 好 的 组 件 都 为 使 用 Spark 提供 了 很 大 的 便利 ， 再 加 上 友好 的 API、 比 Hadoop 
更 快 的 处 理 速 度 ， 使 Spark 逐渐 抢占 Hadoop 的 市 场 份额 ， 在 开源 大 数据 计算 中 出 现 的 频率 
越 来 越 高 。 接 下 来 安装 Spark 并 用 Spark 来 演示 如 何 进 行 单词 统计 (WordCount)。 


16.3.1 安装 Spark 


1. 下 载 

Spark 支持 很 多 版 本 ， 目 前 主流 的 是 1.6.0 版 本 ， 为 了 便于 学 习 先 下 载 预 编译 版 本 ， 访 
问 http://spark.apache.org 选择 Download 命令 ， 之 后 进入 下 载 界 面 。 

在 Choose a Spark release 和 下拉 列 表 框 中 选择 1.6.0 版 本 ， 这 是 最 新 的 稳定 版 本 。 在 
Choose a package type 下 拉 列 表 框 中 选择 Pre-built for Hadoop 2.6 and later 选项 。 这 里 选择 
源 代码 版 本 或 预 编译 版 本 ， 由 于 之 前 安装 的 Hadoop 为 2.6 版 本 ， 这 里 选择 此 项 ， 读 者 可 以 
根据 实际 环境 进行 选择 。 在 Choose a download type 下 拉 列 表 框 中 选择 Direct Download 选 
项 直接 进行 下 载 ， 之 后 单 击 出 现 的 链接 地 址 就 可 以 下 载 了 。 下 载 界面 如 图 16-7 所 示 。 


spark apache.org/downloads.html 


Download Apache Spark™ 


Our iatest version is Spark 1.6.0, released on January 4, 2016 (release notes) (gif tag) 


1, Choose a Spark release: 1.6.0 (Jan 04 2016) C 


5. Verify this release using the ! 6.0 signatures and chacksums. 
Note: Scala 2.11 users should download the Spark source package and bulld with Scala 2. 11 supper. 





图 16-7 FRAM 
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此 外 还 需要 下 载 Scala: 访问 http://www.scala-lang.org/download/ 下 载 最 新 的 稳定 版 本 ， 
下 载 位 置 如 图 16-8 所 示 。 


DOCUMENTATION | DOWNLOAD CC 


s to get started with Scala! 


Download Scala 2.11.7 binaries for your system {All downloads}. 


[4] Scala 2.11.7 


图 16-8 Scala 下 载 位 置 





2. 环境 准备 

由 于 Spark 是 采用 Scala 语言 编写 的 ， 因 此 需要 在 Java 虚拟 机 CVM) 上 面 运 行 ， 为 了 
更 好 地 兼容 其 他 的 大 数据 软件 ， 这 里 建议 至 少 在 Java 7 版 本 以 上 ， 如 果 需 要 进行 Scala 和 
Python 的 开发 ， 需 要 安装 Scala 和 Python 的 解释 器 (Python 解释 器 安装 方法 请 参考 附录 )。 

首先 要 确保 Java 环境 变量 存在 ， 同 上 一 节 Hadoop 配置 ， 确 保 /etc/bashrc 存在 以 下 代 
码 行 : 

export JAVA HOME-/opt/java 

3. 安装 

将 Scala 安装 到 /opt 目录 ， 使 用 命令 如 下 : 


$ tar zxf scala-2.11.7.tgz 
$ mv scala-2.11.* /opt/scala 


安装 完成 后 ， 需 要 设置 环境 变量 。 确 保 以 下 配置 在 /etc/bashrc 文件 中 存在 : 
export SCALA HOME-/opt/scala 
安装 Spark 命令 如 下 : 


$ tar zxf spark-1.6.0-hadoop2.6.tgz -C /opt 
$ mv /opt/spark-1.6* /opt/spark 


将 Spark 安装 目录 设置 为 环境 变量 加 入 /etc/bashrc 文件 ， 命 令 如 下 : 


export SPARK HOME-/opt/spark 


16.3.2 ”使 用 Scala 计算 WordCount 


Spark 支持 交互 式 和 非 交 互 式 两 种 操作 形式 ， 使 用 交互 式 进行 计算 可 以 执行 以 下 命令 : 
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$ cd $SPARK HOME 
$ bin/spark-shell 


执行 完成 后 会 进入 Scala 交互 界面 。 
也 可 以 编写 Scala 脚本 执行 非 交 互 方式 命令 ,但 是 需要 先导 入 Spark 相关 的 库 进行 初始 
化 ， 代 码 如 下 : 


import org.apache.spark.SparkConf 

import org.apache.spark.SparkContext 

import org.apache.spark.SparkContext. 

val conf - new SparkConf().setMaster("localhost").setAppName("App Name") 
val sc - new SparkContext (conf) 


为 了 便于 初学 的 读者 学 习 ， 这 里 使 用 交互 式 演示 利用 Spark 计算 WordCount。 
首先 查看 构建 好 的 文件 ， 命 令 如 下 : 


$ cat /tmp/file01 

Hello World Bye World 

$ cat /tmp/file02 

Hello Hadoop Bye Hadoop 


进入 Spark 交互 环境 ， 执 行 如 下 命令 : 


$ cd $SPARK HOME 
$ bin/spark-shell 

// 读 取 要 统计 的 文件 ， 如 果 作 为 独立 脚本 运行 ， 需 要 先进 行 初 始 化 
Scala» val input = sc.textFile("/tmp/fileO*") 

// 将 每 行 以 空格 做 分 隅 ， 分割 成 多 个 单词 

Scala» val words = input.flatMap(line => line.split(" ")) 
// 统计 单词 的 数量 

Scala» val count = words.map(( , 1)).reduceByKey( - ) 

// 将 统计 结果 打印 到 屏幕 

scala» count.collect().foreach(println) 

(Bye, 2) 

(Hello,2) 

(World, 2) 

(Hadoop, 2) 


16.4 ”分布 式 列 存储 框架 


在 生产 生活 中 会 接触 到 很 多 信息 数据 ， 而 大 部 分 信息 是 由 非 结 构 化 数据 组 成 的 ， 特 别 
是 在 大 数据 处 理 过 程 中 尤为 明显 。 这 些 数据 都 无 法 用 关系 型 数据 库 的 思维 方式 建 模 ， 因 此 
在 大 数据 的 处 理 过 程 中 ， 就 出 现 了 很 多 非 结构 化 数据 处 理 需 求 。 

为 了 存储 便利 ， 易 于 理解 ， 在 完整 的 大 数据 体系 中 采用 了 很 多 NoSQL (Not Only SQL 
的 缩写 ) 数据 库 。 基 于 NoSQL 理念 设计 的 最 著名 的 系统 是 Google 的 BigTable 和 滑铁卢 
大 学 开发 的 HBase。Facebook 将 Google BigTable 和 Amazon Dynamo 的 完全 分 布 式 架构 
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集 于 一 身 ， 开 发 了 Cassandra， 后 于 2010 年 正式 成 为 了 Apache 基金 会 项 目 。Cassandra 和 
HBase 的 出 现 不 但 使 NoSQL 的 处 理 速 度 得 到 了 前 所 未 有 的 提升 ， 而 且 它们 能 够 组 成 集群 化 
也 为 Hadoop Spark 等 需要 大 容量 数据 快速 写 入 的 业务 场景 提供 了 非常 有 用 的 工具 。 著 名 
的 甲骨 文公 司 Oracle 也 有 自己 的 NoSQL 产品 ， 叫 做 NoSQL Database; 


1. Cassandra 简介 

Cassandra 的 名 字 来 源 于 希腊 神话 的 一 位 女 先知 ， 因 此 该 项 目的 Logo 是 一 只 明亮 的 眼 
睛 。 最 突出 的 特点 是 它 的 可 扩展 性 ， 给 集群 添加 新 节点 时 ， 可 以 直接 指向 新 的 主机 ， 不 必 
重启 任何 进程 和 改变 任何 查询 ， 是 非常 便利 的 自动 热 扩 展 机 制 。 这 是 一 个 非常 好 的 特性 。 

此 外 ，Cassandra 还 有 一 个 优良 的 特性 ， 即 支持 SQL 语言 。 这 也 让 广大 的 SQL 爱好 者 
觉得 非常 亲切 ， 大 大 降低 了 学 习 的 门槛 。 


2. HBase 简介 

HBase 采用 Java 语言 开发 ， 和 Cassandra 一 样 ， 同 样 借鉴 了 Google 的 BigTable 模型 ， 
主要 为 Hadoop 生态 圈 提 供 了 列 存 储 服务 。 

HBase 使 用 HFile 对 文件 进行 列 式 存储 ，HFile 存储 以 列 族 为 单位 。 在 读 取 时 如 果 只 需 
用 行 键 作 为 索引 要 扫描 一 个 列 族 的 内 容 ， 那 么 其 他 不 相干 的 列 族 即 便 存 在 和 索引 条 件 对 应 
的 逻辑 关系 也 不 会 被 扫描 到 ， 这 种 方式 在 一 定 程 度 上 避免 了 IO 拥塞 ， 也 更 加 适合 这 种 小 尺 
寸 的 OLTP 操作 。 

但 是 和 Cassandra 一 样 ，HBase 也 不 支持 事务 操作 。 


3. Cassandra 和 HBase 对 比 

(1) Cassandra 部 署 更 简单 。Cassandra 只 有 一 种 角色 ， 而 HBase 除了 Region Server 外 
还 需要 ZooKeeper 来 同步 集群 状态 。 

(2) 数据 一 致 性 是 否 可 配置 。Cassandra 的 数据 一 致 性 是 可 以 配置 的 ， 可 以 更 改 为 最 终 
一 致 性 ， 而 HBase 是 强 一 致 性 的 。 

(3) 负载 均衡 算法 不 同 。Cassandra 通过 一 致 性 哈 希 来 决定 数据 存储 的 位 置 ， 而 HBase 
靠 Master 节点 管理 数据 的 分 配 ， 将 过 热 的 节点 上 的 Region 动态 分 配给 负载 较 低 的 节点 。 因 
此 Cassandra 的 平均 性 能 会 优 于 HBase， 但 是 Hbase 有 Master 节点 ， 热 数据 的 负载 更 均衡 。 

(4) 单 点 问题 。 正 是 由 于 Hbase 存在 Master 节点 ， 因 此 会 存在 单 点 问题 。 


16.5 ”PrestoDB 一 一 神奇 的 CLI 


16.5.1 Presto 为 什么 那么 快 


有 这 么 一 句 话 “天 下 武功 ， 唯 快 不 破 ”， 而 Presto 就 会 给 人 们 这 样 一 种 体验 。 
Presto 诞生 于 Facebook, H Facebook 内 部 工程 师 和 开源 社区 工程 师 共 同 进行 维护 ， 它 
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就 是 一 种 超 快 的 SQL 查询 工具 ， 它 诞生 的 主要 用 途 就 是 作为 Hive 和 Pig 的 替代 产品 ， 快 速 
地 完成 海量 的 数据 查询 工作 。 

Presto 不 但 能 够 解析 SQL 还 能 支持 多 种 数据 源 ， 如 HDFS、Cassandra、MySQL 等 。 但 
是 Presto 并 不 是 传统 的 数据 库 ， 还 不 能 支持 在 线 事务 处 理 。 它 更 像 是 一 个 分 布 式 查询 中 间 
件 ， 采 用 了 分 布 式 查询 引擎 ， 同 时 读 取 多 个 数据 源 中 的 大 数据 集 。 它 的 集群 结构 如 图 16-9 
所 示 。 





图 16-9 Presto 的 集群 结构 


Presto 4^ 7j CLI, Coordinator, Worker3 个 部 分 ， 其 中 服务 器 部 分 的 Coordinator 可 以 
看 作 是 调度 各 个 Worker 的 调度 器 ， 而 且 它 还 承担 着 让 客户 端 CLI 角 色 连 接 的 功能 。 它 将 大 
量 的 计算 分 配 到 Worker 来 执行 ， 保 证 Presto 能 够 快速 地 进行 SQL 查询 。 


16.5.2 ”安装 Presto 


1. 下 载 

访问 以 下 链接 来 下 载 最 新 版 本 的 Presto 安装 包 ， 也 可 以 定期 访问 官方 文档 ， 来 获取 最 
新 版 本 : https://prestodb.io/docs/current/installation/deployment.html。 

将 下 载 的 安装 包 解 压缩 ， 创 建 一 个 etc 目录 ,命令 如 下 : 


tar zxf presto-server-0.138.tar.gz -C /opt 
mv /opt/presto-server-0.* /opt/presto 

cd /opt/presto 

mkdir etc 


X An tn o4 


2. 配置 Presto 支持 Hive 

Presto 需要 配置 以 下 4 类 信息 来 完成 基本 设置 ,需要 将 配置 文件 放 入 ete 目录 。 
CI) 节点 属性 : 每 个 节点 的 名 称 和 数据 存储 位 置 。 

(2) JVM 参数 : 运行 时 的 内 存 参数 。 

(3) 服务 器 属性 : Presto 阶段 运行 时 的 角色 信息 。 

( 4) Catalog 属性 : 连接 指定 数据 源 的 信息 。 
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节点 属性 配置 文件 etc/node.properties 内 容 如 下 : 
# 集群 名 称 


node.environment-production 

# 集群 的 唯一 标示 ， 吕 兔 同 网 络 环境 多 套 Presto 集群 互相 干扰 
node.id-ffffffff-ffff-ffff-ffff-ffffffffffff 

# 数据 存储 的 目录 


node.data-dir=/var/presto/data 


JVM 参数 文件 etc/jvm.config 内 容 如 下 : 


-Server 
-Xmx16G 

-XX:4UseG1GC 
-XX:GlHeapRegionSize-32M 
-XX:4UseGCOverheadLimit 
-XX:«ExplicitGCInvokesConcurrent 
-XX:-«HeapDumpOnOutOfMemoryError 
-XX:O0nOutOfMemoryError-kill -9 $p 


Presto 会 将 运行 的 JVM 虚拟 机 参数 设置 为 此 内 容 。 
服务 器 属性 配置 文件 ete/config.properties 包含 服务 器 角色 信息 ， 如 果 只 作为 Coordinator， 
应 该 至 少 包含 以 下 信息 : 


coordinator-true 
node-scheduler.include-coordinator-false 
http-server.http.port-8080 
query.max-memory-50GB 
query.max-memory-per-node-1GB 
discovery-server.enabled-true 
discovery.uri-http://example.net:8080 


如 果 只 作为 Worker， 应 该 至 少 包含 如 下 信息 : 


coordinator-false 
http-server.http.port-8080 
query.max-memory-50GB 
query.max-memory-per-node-1GB 
discovery.uri-http://example.net:8080 


如 果 只 是 测试 Presto DRE, nf ELE — £1 BLSRBETE NJ Coordinator, EX Worker, y 
该 包含 以 下 信息 : 


coordinator=true 
node-scheduler.include-coordinator=true 
http-server.http.port=8080 
query.max-memory-5GB 
query.max-memory-per-node-1GB 
discovery-server.enabled-true 
discovery.uri-http://example.net:8080 
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coordinator 选项 用 来 指定 Presto 实例 是 否 作为 一 个 Coordinator 来 接收 客户 端的 信息 。 

node-schedulerinclude-coordinator 只 有 在 Presto 实例 作为 Coordinator 角色 时 才 有 用 
处 ， 用 来 进行 任务 调度 。 

http-server.http.port 用 来 指定 服务 的 端口 ，Presto 使 用 HTTP 协议 进行 通信 。 

discovery-server.enabled 表示 Presto 通过 自动 发 现 机 制 来 找到 集群 中 所 有 的 节点 。 

discovery.uri 通常 指向 Presto 实例 的 Coordinator 角色 ，Coordinator ffi M i A EXE) A 
动 发 现 服务 接收 Worker 角色 的 注册 。 

Catalog 属性 通过 在 etc/catalog 下 创建 属性 文件 来 完成 属性 的 注册 。Catalog 通过 
connectors 访问 数据 源 。 例 如 ， 创 建 一 个 etc/catalog/hive.properties 文件 来 访问 Hive 数据 
源 ， 配 置信 息 如 下 : 


connector.name=hive-hadoop2 
hive.metastore.uri=thrift://example.net:9083 


针对 不 同 的 Hadoop 版 本 ，Presto 有 对 应 的 Hive connector， 这 里 支持 以 下 4 种。 
( 1) hive-hadoopl: Apache Hadoop 1.x。 
( 2) hive-hadoop2: Apache Hadoop 2.x。 
( 3) hive-cdh4: Cloudera CDH 4, 
( 4) hive-cdh5: Cloudera CDH 5, 
完成 以 上 的 基本 配置 ，Presto 就 可 以 正式 启动 了 。 


3. 启动 Presto 
可 以 使 用 bin/launcher 来 启动 Presto 实例 ， 为 了 便于 调试 , Presto 提供 了 两 种 启动 方式 ， 
前 台 启 动 命令 如 下 : 
$ bin/launcher run 
可 以 将 日 志和 查询 结果 输出 到 当前 终端 。 也 可 以 在 后 台 启 动 ， 避 免 因 关闭 终端 导致 程 
序 退 出 ， 后 台 启 动 命令 如 下 : 


$ bin/launcher start 


更 多 的 命令 选项 可 以 通过 help 参数 来 获取 ， 命 令 如 下 : 


$ bin/launcher -help 


命令 行 接口 
为 了 连接 到 指定 的 Presto 实例 ， 需 要 使 用 Presto CLI 功能 进行 连接 ， 可 以 访问 以 下 地 址 
下 载 Presto CLI: https://repol.maven.org/maven2/com/facebook/presto/presto-cli/0. 138/presto-cli- 
0.138-executable.jar. 


这 是 一 个 可 执行 的 jar 文件 ， 下 载 后 重 命名 为 presto， 赋 予 可 执行 权限 后 即 可 运行 ， 相 
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关 命 令 如 下 : 


$ mv presto-cli-0.138-executable.jar presto 
$ chmod «x presto 
$ ./presto --server localhost:80 --catalog hive  --schema default 


( 1) server 参数 指定 Presto 的 Coordinator 的 IP 地 址 和 端口 ， 这 里 使 用 了 本 机 的 I 地 
址 和 端口 。 

( 2 ) catalog 参数 为 Presto 集群 定义 catalog 名 称 。 

(3) schema 参数 指定 默认 访问 的 数据 库 名 称 。 

连接 成 功 后 ， 可 以 执行 查询 SQL 语句 来 享受 Presto 带 来 的 飞 一 样 的 速度 。 

如 果 读 者 有 兴趣 还 可 以 参考 这 篇 博文 : http://7737197.blog.51cto.com/7727197/1727186, 
是 关于 部 署 Presto on Cassandra 的 ， 就 是 把 Cassandra 作为 Presto 的 数据 源 。 


16.6 ”小结 


Hadoop, Spark, PrestoDB 等 大 数据 框架 有 着 非常 好 的 稳定 性 、 扩 展 性 、 高 可 用 性 等 优 
势 ， 在 企业 应 用 中 有 着 非常 好 的 前 景 。 
本 章 介 绍 的 大 数据 框架 基本 都 是 分 布 式 数据 处 理 的 框架 ,优势 是 处 理 单机 不 方便 处 理 
的 数据 存储 、 数 据 统计 、 数 据 排序 的 操作 。 但 是 对 于 迭代 性 较 强 的 机 器 学 习 来 说 ， 刚 刚 介 
绍 的 这 些 大 数据 框架 会 有 不 适用 的 地 方 ， 有 不 少 算法 也 不 适合 迁移 到 其 上 来 进行 操作 。 
建议 使 用 以 下 两 种 办 法 。 
办 法 一 : 使 用 抽样 方法 提取 少量 数据 ， 把 学 习 或 分 析 挖 掘 的 内 容 放 在 一 台 计 算 机 上 进 
行 计算 和 处 理 。 
办 法 二 : 使 用 分 布 式 的 深度 学 习 框 架 来 处 理 极 大 规模 的 机 器 学 习 数 据 ， 如 Caffe, Caffe 
的 最 新 版 已 经 支持 分 布 式 GPU 在 CNN 网 络 训练 了 。 
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系统 架构 和 调 优 


在 多 年 做 架构 师 的 过 程 中 ， 有 不 少 朋友 和 我 探讨 过 系统 调 优 的 思路 ， 也 有 一 些 年 轻 的 
同事 会 来 请 教 ， 有 的 人 提出 的 调 优 问题 非常 具体 ， 而 有 时 候 有 的 人 会 非常 泛泛 地 提出 一 个 
问题 “系统 怎么 调 优 ”。 

通常 具体 的 问题 因为 场景 确定 ， 所 以 相对 比较 好 回答 ， 而 泛泛 的 问题 通常 不 容易 回答 。 
笔者 对 调 优 的 思路 进行 了 总 结 跟 大 家 进行 分 享 与 讨论 。 不 管 你 用 的 是 Linux, Windows 还 是 
一 些小 型 机 用 的 UNIX 系统 亦 或 其 他 系统 ， 优 化 这 个 话题 几乎 是 永远 避 不 开 的 。 

永远 没有 最 快 只 有 更 快 ， 人 类 对 效率 的 苛求 是 贪 禁 的 ， 当 然 这 也 是 人 类 技术 进步 的 重 
要 原动力 之 一 。 | 

优化 究竟 应 该 怎么 做 呢 ? 优化 有 没有 一 些 原则 或 者 判断 标准 ? 答案 是 肯定 的 。 

首先 必须 明确 一 个 问题 ， 即 优化 是 在 优化 什么 ? 

优化 是 有 着 对 象 和 目标 的 ， 如 果 抛 开 对 象 和 目标 来 谈 ， 优 化 几乎 是 一 个 没 头 没 尾 的 伪 
命题 。 回 想 一 下 ， 在 什么 情况 下 我 们 会 将 “优化 ”一 词 脱口 而 出 ”很 多 读者 估计 也 有 类 似 
的 体会 ， 那 就 是 ， 在 对 系统 目前 的 状况 不 满意 或 者 不 满足 的 时 候 。 而 这 些 情况 通常 包括 两 
个 大 的 方面 : 一 个 是 时 间 ， 一 个 是 空间 。 我 们 无 非 是 对 这 两 种 情况 中 的 一 种 或 者 两 种 的 当 
前 状况 不 满 ， 儿 乎 找 不 到 第 三 种 东西 来 衡量 。 而 用 来 支持 这 两 个 方面 的 因素 ， 如 CPU、 内 
存 、 磁 盘 、 网 络 ， 这 些 因素 称 为 资源 。 


17.1 速度 一 一 资源 的 配置 
对 速度 的 不 满 在 调 优 的 场景 里 占 大 多 数 ， 速 度 的 不 满 一 般 来 说 也 是 分 两 种 : 
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一 种 是 对 一 个 “体型 ” 较 大 的 任务 执行 的 时 间 过 长 不 满 ; 

一 种 是 对 一 个 “体型 ” 较 小 的 任务 的 响应 速度 过 长 不 满 。 

这 两 种 不 满 看 上 去 都 是 一 样 的 速度 问题 ,但 是 思路 不 完全 一 样 。 一 般 来 说 ， 在 做 这 类 
优化 之 前 先 要 做 一 件 事 ， 就 是 判断 一 下 究竟 是 资源 不 足 ， 还 是 资源 分 配 不 合理 。 

常见 的 场景 可 能 有 以 下 这 些 : 例如 ， 一 个 进程 在 服务 器 上 运行 ， 但 是 速度 确实 比 期 望 
的 慢 ， 而 CPU 和 磁盘 的 带宽 却 大 量 闲 置 ， 这 种 情况 下 很 显然 是 资源 配置 不 合理 。 因 为 资源 
不 是 不 够 ， 而 是 由 于 线程 调度 ， 或 者 算法 ， 或 者 其 他 一 些 原因 没有 被 利用 上 。 这 种 情况 下 
估计 你 去 申请 购买 新 机 器 ， 如 果 老 板 花 的 确实 是 自己 的 钱 的 话 十 有 八 九 是 不 会 给 你 批 的 ， 
相信 我 。 


17.1.1 思路 一 : 逻辑 层面 的 优化 

在 服务 器 上 跑 的 程序 ， 尤 其 是 Batch 通常 是 彼此 之 间 独 立 的 。 这 种 情况 下 ， 其 实 是 可 
以 考虑 让 它们 同时 来 执行 ， 充 分 利用 CPU 和 内 存 的 资源 。 但 是 也 要 注意 ， 要 确认 这 种 变化 
给 磁盘 带 来 的 10 增加 不 会 让 它 成 为 系统 的 瓶颈 。 这 就 是 进程 级 别 的 并 发 。 

还 有 的 时 候 一 个 进程 可 以 分 解 为 多 个 独立 作业 和 一 个 合并 操作 ， 那 么 这 种 情况 下 通常 
可 以 尝试 着 多 启动 几 个 进程 或 者 线程 ， 让 每 个 进程 或 者 线程 处 理 整 个 作业 的 一 部 分 ， 最 后 
结束 的 时 候 做 一 个 作业 结果 的 “合并 ”操作 ， 提 高 并 行 化 ， 提 高 资源 利用 率 。 这 种 应 用 比 
较 典 型 的 就 是 Hadoop 环境 中 的 MapReduce 程序 ， 实 际 是 在 很 多 节点 各 启动 若干 个 Map it 
程 和 Reduce 进程 ， 计 它们 在 不 同 节点 上 操作 ， 分 扒 10 和 CPU 的 资源 压力 。 在 单 台 服 务 器 
上 也 有 类 似 的 操作 ， 如 一 个 MySQL 服务 器 进程 在 接受 一 个 SQL 请 求 时 ， 这 个 SQL 不 论 
请 求 多 少 个 表 ， 不 论 它 有 多 少 个 不 相干 的 子 查 询 ， 不 论 写 得 有 多 “优美 "， 它 都 只 能 在 一 个 
CPU 内 核 上 一 步 一 步 地 走 下 去 。 所 以 ， 如 果 采 用 MySQL 环境 做 关联 分 析 ， 就 只 能 把 一 个 
SQL 中 的 两 个 独立 子 查 询 放 到 两 个 或 者 更 多 的 线程 (进程 ) 里 去 做 请 求 ， 再 用 一 个 监控 线程 
(进程 ) 观察 结果 ， 最 后 做 连接 查询 。 有 必要 的 话 可 以 使 用 Memory 内 存 视图 的 Hash 索引 进 
行 速 度 优 化 。 


17.1.2 思路 二 : 容器 层面 的 优化 

当 一 台 或 多 台 服 务 器 上 有 很 多 进程 ， 但 是 资源 占用 普遍 比较 低 时 ， 还 可 以 考虑 使 用 容 
器 层面 的 优化 。 

可 以 使 用 KVM 或 者 Docker 这 样 的 容器 把 服务 器 资源 划分 成 多 个 虚拟 的 服务 器 资源 。 
这 种 情况 下 ， 原 本 在 多 个 服务 器 的 少量 负载 经 过 迁移 会 合 起 来 加 载 在 一 个 服务 器 上 ， 而 节 
省 出 来 的 服务 器 资源 可 以 用 来 做 其 他 的 服务 ， 在 硬件 的 成 本 上 会 有 一 大 笔 节 省 。 

现在 的 阿里 云 、 腾 讯 云 、 金 山 云 、 亚 马 逊 云 等 云 产 品 服务 商 就 是 大 规模 使 用 了 虚拟 化 
技术 ， 从 而 使 得 运 维 成 本 大 为 降低 。 

虽然 容 需 层面 的 优化 对 于 直接 减少 程序 运行 的 时 间作 用 较为 间接 ， 但 在 庞大 的 系统 内 
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提高 硬件 整体 的 使 用 效率 还 是 非常 有 好 处 的 。 


17.1.3 思路 三 : 存储 结构 层面 的 优化 

目前 在 服务 器 普遍 配置 了 RAID10 磁盘 阵列 以 后 ， 磁 盘 IO 在 硬件 层面 进一步 并 行 化 的 
余地 越 来 越 小 了 。 那 么 还 有 没有 其 他 的 办 法 可 以 对 IO 层面 进行 优化 呢 ? 有 的 。 

例如 ， 为 了 缓存 一 些 数据 做 迭代 运算 ， 磁 盘 发 生 非 常 频繁 的 读 写 ， 每 次 几 个 GB ( 量 比 
较 小 ， 至 少 内 存 能 够 承载 )， 但 是 一 次 处 理 可 能 要 读 写 数 百 次 ， 这 样 会 大 量 占用 磁盘 IO。 这 
种 情况 下 ， 不 妨 尝试 在 内 存 中 虚拟 或 者 划分 出 一 个 独立 的 空间 ， 以 供 做 IO 使用。 这 样 把 
CPU 和 磁盘 之 间 的 IO 转化 成 为 CPU 和 内 存 之 间 的 IO， 这 种 效率 的 提升 可 能 是 数 干 倍 的 。 

另外 ， 和 磁盘 在 做 IO 的 过 程 中 ， 是 不 是 扫描 了 一 些 本 可 以 不 扫描 的 磁盘 块 ? 解决 这 种 问 
题 有 很 多 成 熟 的 办 法 。 

在 数据 仓库 里 使 用 列 式 存 储 ， 从 本 质 来 讲 也 是 用 这 种 方法 来 规避 没 必要 扫描 的 数据 块 
被 扫描 。 表 分 区 (Table Partitioning)、 索 引 ( Index)， 这 两 种 技术 同样 是 为 了 解决 数据 查找 
中 没 必要 扫描 的 数据 块 被 访问 而 带 来 的 10 效率 下 降 问 题 。 

资源 分 配 不 合理 的 情况 比较 好 解决 ， 就 是 找 出 在 系统 里 CPU、 内存、 磁盘、 网 络 中 ， 
哪些 资源 被 大 量 闲 置 ， 如 果 利 用 起 来 能 否 提高 并 行 性 ， 基 本 就 是 这 样 一 种 思路 。 








17.14 思路 四 : 环节 层面 的 优化 

环节 层面 的 优化 是 一 个 边缘 化 的 问题 ， 因 为 这 个 层面 上 的 优化 通常 会 涉及 硬件 资源 以 
外 的 一 些 问题 一 一 换 句 话说， 这 一 类 问题 在 计算 机 的 CPU、 内存、 磁盘、 网 络 层面 考虑 可 
能 还 是 不 能 解决 的 。 

1. 虚拟 机 车 的 祸 

笔者 几 年 前 在 某 500 强 企业 的 TT 解决 方案 中 心 做 顾问 的 时 候 ， 曾 经 遇 到 过 一 个 案例 。 

这 个 案例 从 技术 层面 来 说 就 是 一 个 ERP 系统 页 面 请 求 速度 太 慢 的 问题 ， 大 概 需要 2 到 
3 秒 时 间 才 能 把 一 个 页 面 的 数据 完全 加 载 完毕 。 不 管 2 到 3 秒 这 个 速度 是 不 是 够 快 ， 是 不 是 
比 平时 访问 电 商 网 页 或 者 在 线 论 坛 的 速度 快 ， 对 于 一 个 对 效率 要 求 很 苛刻 的 500 强 企业 来 
说 ， 这 是 一 件 不 能 容忍 的 事情 。 况 且 ， 页 面 所 访问 的 服务 如 也 是 DELL 提供 的 很 新 的 技术 
方案 ，48 个 CPU 内 核 ，192 GB 内 存 。 服 务 器 在 公司 内 网 ， 内 网 带宽 又 基本 都 是 1 Gbps 的 
光纤 到 楼 层 ， 楼 层 内 部 又 都 是 100 Mbps 的 以 太 网 。 所 以 从 这 个 层面 上 看 这 种 页 面 的 延迟 没 
有 道理 ， 而 其 他 项 目 组 在 配置 基本 相当 的 服务 器 环境 和 终端 环境 ， 打 开 页 面 时 间 都 是 1 秒 
以 内 。 

但 是 很 快 就 发 现 了 问题 所 在 ， 这 个 ERP 系统 的 页 面 是 使 用 Silverlight 制作 的 。Silverlight 
是 微软 出 品 的 一 种 跨 服 务 器 跨 平台 的 插件 ， 主 要 目的 是 解决 浏览 器 上 的 流 媒 体 和 交互 丰富 性 
的 问题 ， 基 本 可 以 认为 是 Adobe Flash 的 替代 者 。 然 而 这 种 技术 框架 有 一 个 天 生 的 问题 就 是 
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慢 ， 因 为 它 调用 的 是 微软 .NET 虚拟 机 的 资源 ， 而 虚拟 机 本 身 的 运行 机 制 就 是 一 种 多 层 间 接 
调用 的 架构 ， 指 令 不 是 直接 下 达到 CPU 上 ， 而 是 经 过 虚拟 机 ， 由 虚拟 机 调度 线程 再 发 送 到 
CPU。 在 一 次 HTTP 请 求 的 过 程 中 ， 有 几 百 个 指令 会 以 这 种 方式 传递 给 CPU， 延 迟 是 显 而 易 
见 的 。 

最 后 为 了 赢得 这 1 秒 多 的 时 间 ， 不 得 不 推翻 了 整个 项 目的 架构 部 分 ， 采 用 HTML4+CSS2 
的 方式 。 立 竿 见 影 ， 延 迟 瞬 间 就 压缩 到 1 秒 以 内 了 。 但 是 代价 是 牺牲 了 一 些 交 互 上 的 丰富 性 
和 美观 性 ， 那 个 时 候 HTMLS 和 CSS3 还 不 成 熟 ， 还 不 能 作为 成 熟 的 技术 方案 ， 所 以 说 现在 用 
HTMLS 和 CSS3 的 程序 员 们 真是 赶 上 好 时 候 了 。 


2. CDN 是 个 好 东西 

除了 刚刚 这 个 例子 以 外 ,平时 也 能 见 到 很 多 从 环节 层面 进行 优化 的 例子 。 最 常见 的 就 
是 CDN 技术 。 

CDN 技术 是 一 种 近 几 年 非常 火 的 技术 ， 全 称 是 Content Delivery Network， 内 容 分 发 
网 络 。CDN 应 该 说 是 一 套 完 整 的 网 络 加 速 解决 方案 ， 包 括 分 布 式 存储 、 负 载 均 衡 、 网 络 请 
求 的 重 定 向 和 内 容 管理 等 多 个 技术 环节 部 分 。 对 于 用 户 在 网 页 上 请 求 图 片 加 载 慢 ， 或 者 文 
件 下 载 慢 等 非 本 地 带宽 过 小 带 来 的 数据 下 载 问题 能 有 很 好 的 改善 作用 。 例 如 ， 当 一 个 网 站 
使 用 了 CDN 技术 对 网 页 资源 进行 加 速 的 策略 开启 后 ， 这 些 资 源 就 会 通过 CDN 提供 商 的 分 
发 策略 分 发 到 很 多 的 缓存 服务 器 上 去 。 当 用 户 进行 该 网 站 的 访问 时 ， 这 些 资源 引用 的 地 址 
会 自动 指向 这 个 离 得 最 “ 近 ”， 访 问 最 快 的 缓存 服务 器 节点 上 去 ， 这 样 就 能 使 资源 下 载 加 
速 了 。 . 
互联 网 是 一 个 非常 复杂 的 东西 ， 不 仅 是 拓扑 结构 复杂 ， 其 中 不 同 的 交换 设备 有 着 不 同 
的 交换 策略 ， 是 一 个 分 布 式 的 自 协调 的 连通 系统 。 不 同 运营 商 之 间 也 会 由 于 技术 性 的 或 者 
非 技术 性 的 问题 引发 跨 网 ( 跨 运营 商 ) 的 带宽 变 窗 问题 。 为 了 解决 这 种 问题 ， 我 们 不 仅仅 会 
用 到 CDN 技术 ， 还 需要 使 用 一 种 叫 BGP 双 线 / 多 线 机 房 的 技术 来 进行 网 络 加 速 。 

BGP ( Border Gateway Protocol， 边 界 网 关 协 议 ) 是 一 种 在 TCP 协议 上 运行 的 自治 系统 
之 间 动 态 交换 路 由 信息 的 路 由 协议 。 启 用 BGP 技术 的 机 房 一 般 称 作 BGP 机 房 ， 服 务 器 租 
用 商 或 提供 商 通 过 技术 的 手段 ， 实 现 不 同 运营 商 能 共同 访问 一 个 IP， 并 且 不 同 运营 商 之 间 . 
都 能 以 最 快 的 速度 访问 这 个 IP 地 址 。 把 服务 器 放 在 BOP 机 房 给 用 户 带 来 的 好 处 就 是 ， 在 
BGP 机 房 基 本 可 以 不 考虑 不 同 的 用 户 跨 网 访问 服务 器 会 因 运 营 商 网 络 不 同 而 产生 的 “带宽 
歧视 ”问题 。 





17.1.5 ”资源 不 足 


资源 不 足 的 情况 通常 比较 麻烦 ， 因 为 如 果 观 察 到 服务 器 上 的 CPU、 磁 盘 IO、 网 络 IO 
都 非常 繁 已 ， 要 想 办 法 先 排 除 是 业务 逻辑 上 设计 的 朴 漏 导致 的 不 合理 或 者 意外 的 资源 请 求 
太 多 ， 还 是 “ 真 的 ”资源 不 够 。 如 果 是 由 于 一 些 朴 漏 导 致 的 资源 请 求 过 于 集中 ,那么 通过 
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debug 或 者 优化 业务 逻辑 ， 还 是 能 够 获 解 的 。 但 是 如 果 不 是 这 些 问 题 ， 那 就 是 资源 确实 比 客 
观 真 实 的 需求 少 了 。 典 型 的 例子 就 是 ， 在 保存 日 志 的 情况 下 ， 业 务 要 求 无 损 永久 存档 ， 但 
是 即便 在 启用 压缩 且 不 留 匈 余 的 情况 下 ， 还 是 很 快 把 磁盘 填 满 ， 那 就 是 典型 的 磁盘 资源 不 
RT. 

总 之 ， 还 是 要 先 用 一 些 办 法 确定 资源 分 配 究竟 是 不 足 还 是 不 合理 ， 再 用 “ 低 成 本 ”的 
资源 换取 “高 成 本 ”的 资源 。 


17.2 稳定 一 一 资源 的 可 用 


稳定 性 是 压倒 一 切 的 。 在 服务 右 程 序 开发 方面 ， 有 以 下 共识 。 

C1) 服务 器 快 比 服 务 器 慢 要 好 。( 客 户 体验 会 更 好 。) 

(2) 服务 咒 慢 要 比 服务 顺和 罕 机 好 。( 客 户 体验 不 好 ， 好 歹 还 在 提供 服务 ， 还 有 流量 进来 。) 

(3) 服务 器 宕 机 要 比 服务 器 损坏 了 好 。( 已 经 是 损失 了 ， 损 失 小 点 吧 ， 尤 其 是 不 要 损坏 
数据 。) 

如 果 在 服务 器 反应 慢 和 服务 器 宕 机 这 两 种 事件 中 一 定 要 做 一 个 选择 ， 一 般 都 会 选择 前 
者 。 可 是 如 果 服 务 器 的 资源 不 足 怎么 办 ? 请 求 过 多 ， 请 求 过 于 频繁 ， 服 务 器 进行 过 规划 但 
是 还 是 全 部 资源 都 用 光 ， 怎 么 办 ? 考虑 租用 云 服 务 试 试看 。 


17.2.1 借助 云 服务 

如 果 资 源 占 用 是 有 比较 规律 的 (周期 性 的 )， 而 且 峰 值 过 高 ， 这 种 情况 下 是 比较 适合 租 
用 云 服务 的 。 在 峰值 到 来 时 使 用 云 服 务 ; 在 峰值 过 去 后 ， 低 谷 时 退 订 云 服务 。 

在 使 用 云 服务 时 要 先 评估 一 下 ,对比 一 下 使 用 云 服 务 的 成 本 。 对 比 的 时 候 要 对 比 两 种 
方案 的 完整 成 本 ， 云 服务 的 成 本 就 是 云 平台 的 收费 ， 自 建 系统 的 成 本 包括 服务 器 购买 、 服 
务 器 维护 、 服 务 器 折旧 、 带 宽 租 赁 等 ， 看 看 哪个 对 于 自己 来 说 更 划算 。 


17.2.2 MDEA 

做 过 数据 库 开 发 的 人 对 锁 (Lock) 一 定 不 陌生 。 

一 般 的 锁 都 是 指 互 斥 锁 ， 也 就 是 说 系统 里 存在 这 样 一 种 资源 ，A 用 户 在 占用 的 同时 ，B 
用 户 是 不 能 占用 的 。 这 种 情形 在 日 常生 活 中 也 是 随处 可 见 ， 如 餐厅 里 的 座 椅 ， 一 个 用 户 在 
使 用 时 其 他 用 户 就 不 能 使 用 ， 直 到 这 个 用 户 离开 ， 座 椅 不 再 使 用 了 才能 再 被 其 他 人 占用 。 

在 计算 机 系统 里 也 有 这 种 情况 ， 当 一 个 SQL 的 事务 正在 做 多 行 的 数据 更 新 时 ， 通 常会 
锁 住 这 些 行 ， 其 他 的 线程 要 想 读 取 这 些 行 都 要 等 待 ， 直 到 这 个 事务 释放 行 锁 。 在 一 个 系统 
中 如 果 有 大 量 的 锁 资 源 也 会 出 现 一 种 奇怪 的 现象 ， 就 是 看 上 去 似乎 CPU 和 磁盘 IO 都 还 远 
没有 达到 上 限 ， 但 是 每 个 事务 请 求 却 慢 得 让 人 无 法 忍受 。 

锁 是 一 个 在 资源 上 保证 独立 性 的 工具 ， 没 有 它 很 多 事情 是 做 不 了 的 。 
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例如 每 年 至 少 要 哎 3 次 的 12306 (五 一 长 假 、 十 一 长 假 、 春 节 长 假 )，12306 多 少 有 点 多 
枉 。 本 来 火车 的 运载 能 力 有 限 ， 票 数 有 限 ， 这 是 事实 。 火 车 上 的 座位 甚至 是 站 位 和 刚刚 说 
的 餐厅 的 情况 是 一 样 的 ， 一 个 人 占 了 另 一 个 人 就 没 办 法 使 用 ， 这 些 占 与 不 占 的 情况 不 用 等 
上 车 之 后 去 看 ， 在 订 票 时 就 显示 出 来 了 ， 所 以 可 以 想象 ， 在 抢 票 时 12306 的 后 台 有 几 十 万 
把 大 大 小 小 的 锁 时 开 时 合 ， 让 大 家 按照 锁 开 合 的 指示 等 待 锁 资源 的 释放 ， 当 锁 释 放 以 后 ， 
如 有 人 买 了 票 但 是 没有 付款 票 被 重新 释放 ， 这 个 时 候 我 们 就 又 能 够 获得 这 把 锁 ， 由 我 们 锁 
住 这 张 票 ， 然 后 开始 付款 的 过 程 。 而 这 个 过 程 中 ， 别 的 任何 一 个 人 都 没 办 法 获得 我 锁 住 的 
这 张 票 。 

淘宝 的 交易 系统 与 12306 有 着 很 大 的 不 同 。12306 上 的 信息 完全 是 一 对 一 的 互 斥 资源 ， 
必须 在 全 国 范围 内 的 全 局 进行 锁 互 床 和 争 抢 。 而 淘宝 的 每 个 店铺 都 是 在 独立 提供 自己 的 货 
品 ， 甚 至 货品 的 表示 只 是 一 个 数字 ， 而 非 具体 的 每 个 不 可 替换 的 货品 。 那 么 这 些 货品 可 以 
被 分 解 到 几乎 任意 多 的 小 集群 小 系统 中 去 对 外 提供 服务 ， 再 辅 以 CDN 缓存 技术 降低 网 络 延 
迟 ， 用 户 体验 自然 要 比 12306 高 几 个 档次 。 这 并 非 是 说 12306 技术 水 平 比 淘宝 差 太 多 ， 而 
是 他 们 做 的 压根 就 不 是 一 样 的 事情 。 


17.2.3 ”排队 

如 果 硬 件 资源 真 的 很 紧张 ， 既 没 办 法 做 锁 分 散 ， 也 没 办 法 通过 租用 云 服务 来 解决 。 还 
有 一 个 方法 来 保证 在 服务 器 不 死机 的 情况 下 对 外 提供 服务 ， 那 就 是 让 用 户 排 队 。 

排队 这 种 事情 司空 见 惯 ,尤其 是 在 吃饭 的 时 候 。 如 果 在 吃 午餐 或 者 晚餐 的 时 候 到 各 大 
商场 的 招牌 餐厅 去 看 看 就 知道 了 ， 人 气 旺 的 店铺 外 面 是 有 取 号 机 的 ， 没 有 取 号 机 的 店铺 也 
会 有 两 个 漂亮 妹子 招呼 拿 号 排队 。 银 行 也 一 样 ， 银 行 是 比较 典型 的 “硬件 资源 不 足 ” 但 又 
要 提供 服务 的 场景 ， 只 能 让 用 户 等 。 

在 网 络 服务 层面 也 有 排队 现象 吗 ? 有 的 ， 只 是 有 的 体验 做 得 好 ， 有 的 体验 做 得 差 。 

排队 也 是 有 比较 成 熟 的 方案 的 ， 通常 来 说 可 以 考虑 在 服务 器 和 浏览 器 两 侧 进行 配合 。 
核心 思路 如 下 。 

(1) 能 够 在 客户 端 (浏览 器 ) 挡住 的 访问 坚决 不 要 放 到 服务 右上 来 。 

例如 ， 可 以 用 JavaScript 代码 来 进行 “ 封 墙 " ， 至 少 做 一 个 比较 好 的 倒计时 提示 来 告诉 
访问 者 前 面 还 有 多 少 人 ， 或 者 要 倒计时 等 多 久 才 能 排队 等 到 位 。 

(2) 能 够 分 散 到 多 个 服务 器 上 进行 排队 提示 的 内 容 坚决 不 要 集中 到 一 台 服 务 器 上 来 。 
这 个 原则 和 负载 均衡 的 原则 是 没有 区 别 的 ， 我们 不 希望 大 家 都 一 窜 蜂 到 窗口 来 问 “ 还 差 多 
少 人 到 我 ” 。 能 够 用 大 广告 牌 说 明 的 问题 就 写 在 大 广告 牌 上 ， 大 家 自己 看 。 所 以 在 服务 器 上 
也 可 以 考虑 用 类 似 的 方式 进行 分 散 性 的 广播 ， 而 不 要 集中 到 一 台 服 务 器 去 做 排队 询问 。 


17.2.4 谨防“ 雪崩 ” 
在 不 少 介绍 调 优 和 架构 的 资料 里 会 提 到 这 样 一 个 词汇 ' 雪 前 " 。' 雪 骨 ” 是 一 种 自然 现象 ， 
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也 是 一 种 灾害 ， 通 常 发 生 在 常年 积 雪 的 山区 (图 17-19). 





图 17-1 ji 


由 于 声波 震动 或 者 地 壳 活 动 等 原因 ， 导 致 原来 覆盖 在 山上 的 积 雪 产生 一 些 内 应 力 上 的 
变化 ， 使 得 它 开 始 像 泥石流 那样 具备 一 定 的 流动 性 ， 而 后 小 规模 的 流动 性 逐渐 引发 大 规模 
的 流动 性 形成 灾害 。 也 就 是 说 ， 一 个 几 万 吨 重 甚至 几 十 万 吨 重 的 雪 盖 形成 的 重力 势能 转化 
为 动能 的 破坏 性 可 能 最 开始 只 是 一 只 鸟 在 山顶 上 落 了 一 下 ， 或 者 是 一 个 人 大 吼 了 一 声 。 

在 系统 架构 中 提 到 的 雪崩 和 这 个 现象 看 上 去 很 类 似 ， 就 是 由 于 一 台 服 务 器 或 者 一 台 服 
务 嚣 中 的 某 个 模块 发 生 故 障 进而 引发 连锁 反应 ， 最 后 导致 大 量 的 服务 器 或 者 软件 模块 无 法 
正常 工作 ， 这 种 现象 也 叫做 “急剧 变 坏 ”现象 。 例 如 ， 常 用 的 负载 均衡 型 的 集群 里 就 会 有 
类 似 的 现象 发 生 。 

假如 有 一 个 PHP 的 集群 ，10 个 节点 ， 前 端的 路 由 器 用 Round Robin (等 权 轮 询 ) 算法 
为 后 面 10 台 PHP 转发 HTTP 请 求 ， 当 每 台 服 务 器 都 达到 CPU 占用 80% 的 负载 时 ， 其 实 
压力 已 经 接近 极限 了 。 此 时 如 果 有 一 台 PHP 服务 器 突然 停止 响应 ， 根 据 负载 均衡 协议 ， 这 
个 节点 会 被 暂时 移出 整个 负载 均衡 集群 ， 那 么 新 进来 的 负载 就 会 被 压 在 另外 9 GBA S E, 
粗略 计算 一 下 ， 其 他 9 台 服 务 器 的 负载 大 约会 上 升 到 89%， 进 而 有 更 大 概率 引发 其 他 服务 
器 的 崩溃 ， 而 骨 泪 的 服务 器 再 被 移出 负载 均衡 集群 …… 后 面 的 事情 大 家 想 想 都 能 知道 ， 服 
务 器 集群 崩溃 得 越 来 越 快 ， 直 到 整个 集群 完全 垮 掉 。 这 种 由 一 个 点 的 故障 引起 整个 系统 骨 
省 的 现象 就 叫做 雪 毅 现象 。 

要 想 防 止 雪崩 需要 做 好 以 下 几 件 事情 。 

C1) 对 服务 器 负载 的 估算 。 对 服务 器 的 负载 应 该 有 一 个 比较 合理 的 估算 。 来 自前 端的 
HTTP 请 求 或 者 其 他 形式 的 压力 都 可 以 通过 软件 来 模拟 进行 压力 测试 ， 测 试 一 台 服 务 器 在 
CPU 达到 60% 左右 时 的 负载 数量 。 

(2) 线 上 测试 估算 服务 器 数量 。 与 其 说 线 上 测试 ， 不 如 说 按 需 购买 。 在 把 服务 器 上 的 
服务 释放 之 后 ， 会 有 用 户 正常 的 负载 需求 从 互联 网 上 流 进 来 ， 这 个 流量 是 有 着 周期 规律 波 


O 图 片 来 自 百 度 图 库 。 
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动 性 的 ， 如 在 一 天 内 有 规律 的 波动 性 ， 在 一 周 内 有 规律 的 波动 性 。 这 些 峰值 和 低谷 出 现在 
什么 时 间 ， 负 载 分 别 为 多 少 ， 可 以 通过 对 单 台 服务 器 的 CPU 以 及 网 络 连接 监控 来 捕捉 到 。 
进而 可 以 推算 出 峰值 和 低谷 各 自 需 要 的 服务 器 数量 一 一 在 安排 资源 时 要 多 准备 一 些 。 

例如 ， 峰 值 时 如 果 计 算出 需要 2 台 服 务 器 ， 每 台 服务 器 60% 的 负载 ， 其 实 这 时 服务 器 
集群 是 没有 真正 “ 宛 余 ”的 ， 因 为 一 旦 其 中 的 一 台 服 务 器 由 于 故障 停止 响应 立刻 会 引发 雪 
朋 ， 所 以 这 时 应 该 是 在 刚刚 的 基础 上 加 一 台 服 务 器 更 为 保险 ， 即 一 共 3 台 服 务 器 ， 每 台 服 
务 器 40% 的 CPU 负载 。 如 果 计 算出 需要 4 台 服 务 器 ， 每 台 服 务 器 60% 的 负载 ， 则 如 果 一 
台 服 务 器 发 生 故 障 ， 其 余 3 台 服 务 器 的 CPU 负载 会 被 压力 推 升 到 80%， 但 是 应 该 远 没有 第 
一 种 情况 危险 。 

请 注意 ， 在 负载 均衡 的 集群 中 防止 雪 前 是 一 个 资源 和 风险 平衡 的 过 程 。 选 好 这 个 平衡 
点 就 能 在 保证 不 发 生 雪 骨 的 情况 下 资源 投入 最 少 。 


17.3 小结 


系统 架构 这 个 课题 是 一 个 辩证 使 用 技术 和 方法 论 保证 服务 性 价 比 的 事情 。 任 何 技 术 、 
任何 方法 都 有 其 特点 和 局 限 性 ， 只 有 融会 员 通 地 使 用 才能 在 架构 优选 中 获得 更 好 的 思路 和 
解决 方案 。 
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We 数据 解读 与 数据 的 价值 


本 章 是 杂谈 性 的 内 容 ， 是 基本 脱离 技术 内 容 以 外 的 一 些 延展 性 的 话题 讨论 。 阅 读 起 来 
应 该 会 更 有 一 定 的 发 散 性 ， 也 会 更 觉得 轻松 一 些 

在 前 几 章 里 已 经 介绍 过 关于 数字 化 运营 的 一 -此 基本 知识 了 ， 只 要 做 好 下 面 几 步 ， 就 拥 
有 了 最 基本 的 运营 条 件 。 

(1 ) 数据 收集 。 

(2) 数据 存储 。 

(3) 数据 结构 化 建 模 。 

(4) 指标 体系 。 

不 需要 太 多 高 深 的 知识 ， 只 需要 认真 把 这 每 个 环节 都 做 好 ， 一 个 公司 的 数字 化 运营 就 
会 自然 传承 迭 代 并 帮助 公司 运营 自如 。 


18. 运营 指标 


od 节 知 识 在 第 5 章 已 经 进行 过 讨论 了 。 
营 指标 和 普通 的 指标 有 什么 区 别 呢 ? 从 名 字 上 来 看 ， 运 营 指标 应 该 是 指标 的 一 个 子 
集 ， DERE ROME ESTIMESHESIME EORR 有 一 部 分 则 不 适合 
运营 指标 ， 顾 名 思 义 ， 是 为 运营 直接 服务 的 指标 。 不 同行 业 的 运营 指标 ， 无 论 是 关注 
的 内 容 还 是 关注 的 周期 其 实 是 不 一 样 的 。 
在 日 常生 产 工作 中 ,利用 运营 指标 能 做 的 事情 主要 是 纵向 和 横向 的 对 比 。 
纵向 ， 就 是 一 个 部 门 或 者 一 个 人 ， 对 不 同时 段 的 同一 指标 进行 对 比 ， 以 判断 其 运行 状 
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态 是 好 转 还 是 恶化 ， 是 进步 还 是 退步 ; 如 一 个 部 门 的 月 生产 产值 ， 同 比 增长 1 000 万 元 ， 环 
比 增长 200 万 元 。 这 就 是 纵向 比较 。 
横向 ， 就 是 指 部 门 和 部 门 之 间 , 个 人 和 个 人 之 间 ， 尤 其 是 那些 职能 相同 的 部 门 和 职能 
相同 的 人 之 间 的 对 比 ， 能 够 看 出 工作 效率 的 差异 和 盘 亏 的 多 寡 。 例 如 ， 张 三 的 月 销售 额 为 
100 万 元 ， 李 四 为 30 万 元 ， 王 五 为 50 万 元 。 通 过 对 比 可 以 得 到 清晰 的 工作 能 力量 化 排名 ， 
这 就 是 典型 的 横向 比较 。 
指标 体系 的 建立 和 对 比 对 于 企业 内 部 营造 一 种 积极 进取 的 气氛 是 非常 重要 的 。 





18.1.1 互联 网 类 型 公司 常用 指标 
下 面 举 几 个 互联 网 类 型 的 公司 最 常用 的 指标 例子 。 


1. 搜索 类 产品 

搜索 类 产品 大 多 是 一 些 搜索 引擎 网 站 ， 有 的 网 站 搜索 的 对 象 比较 宽泛 ， 有 的 则 是 垂直 
类 别 的 ， 如 只 供 搜索 各 种 新 闻 ， 或 者 只 供 搜 索 各 种 图 片 等 。 搜 索 类 产品 提供 的 服务 核心 是 
一 个 或 几 个 关键 词 到 一 些 链接 的 映射 ， 通 过 这 个 映射 可 以 迅速 用 关键 词 跳 转 到 目标 页 面 。 
一 利 当 然 就 是 靠 那 些 希 望 购买 这 种 关键 词 对 自己 页 面 有 高 命中 率 的 商家 了 了。 所 以 自然 而 然 
就 有 点 击 量 、 转 化 率 等 这 些 他 们 比较 关心 的 指标 了 。 

稼 用 指标 有 以 下 几 种 。 

日 点 击 数 (Page Views): 每 天 网 站 点 击 数量 。 

每 月 独立 访问 量 (Monthly Uniques) : 在 没有 用 户 体系 的 搜索 类 产品 里 一 般 是 指 独 立 IP 
的 访问 量 ,，1 个 人 P 访 问 1 次 和 10 次 都 算 1 个 独立 访问 。 

点 击 付费 链接 的 用 户 百 分 率 (Percentage of Users that Click a Paid Link): 也 就 是 “转化 
率 ”， 表 示 列 在 用 户 面前 付费 链接 里 有 多 少 比例 的 链接 会 让 用 户 有 兴趣 点 击 。 一 般 搜 索 类 网 
站 这 个 值 都 比较 低 的 ， 有 1% 左右 算是 比较 正常 。 

每 次 点 击 收入 (Revenue per Click): 平均 每 次 点 击 的 收入 。 

2. 游戏 类 产品 

游戏 类 产品 也 有 相应 的 一 些 指标 。 

每 日 /月 活跃 用 户 (Daily/Monthly Activated Users): 也 就 是 俗称 的 “日 活 ” 和 “月 活 ”。 
一 般 来 说 ， 游 戏 的 繁 来 程度 很 大 因素 来 自 于 活跃 玩家 的 数量 。 日 活 /月 活 指标 不 只 在 游戏 类 
产品 中 才 会 被 人 用 到 ， 很 多 软件 产品 也 都 会 对 这 个 值 进行 统计 。 只 是 游戏 是 一 个 用 户 互 动 
性 很 强 的 产品 ， 它 的 繁荣 程度 与 这 个 值 关 联 太 密切 ， 所 以 这 个 指标 才 被 看 得 很 重要 。 

付费 用 户 转化 率 (Conversion Rate to Paying User): 付费 用 户 与 注册 用 户 的 占 比 。 

平均 每 用 户 收入 ( Average Revenue per User，ARPU) : 指 的 是 以 月 或 者 年 为 单位 的 从 
每 个 用 户 身 上 平均 收入 多 少 。 
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18.1.2 ”注意 事项 

先 说 一 个 翡 观 的 观点 ， 也 是 很 多 数字 化 运营 中 数字 解读 者 容易 陷入 的 误区 一 一 指标 能 
解释 一 切 。 但 是 事实 却 不 是 这 样 一 一 运营 指标 能 看 到 现象 ， 其 至 可 以 说 对 现象 的 感知 及 其 
灵敏 度 ， 但 是 它 永远 不 能 自我 解释 原因 。 

不 仅 是 这 样 ， 有 经 验 的 运营 人 员 可 以 通过 自己 的 经 验 和 行业 知识 对 原因 做 试探 性 的 推 
断 和 解释 ， 但 是 仍然 不 能 通过 指标 来 直接 并 准确 解释 原因 。 它 只 是 一 个 仪表 ， 只 是 一 个 和 
温度 计 、 体 检 报 告 并 无 二 致 的 结果 告知 性 的 数字 化 表现 ， 而 非 原因 解释 性 的 。 

这 就 好 比 人 们 感觉 不 舒服 ， 去 医院 做 一 个 身体 检查 ， 检 查 结果 是 胃炎 ， 那 胃炎 应 该 怎 
么 吃 药 是 有 成 熟 的 解决 办 法 的 ， 不管 是 老 中 医 开 的 汤药 ， 还 是 西医 开 的 抗生素 ， 开 了 就 去 
吃 ， 吃 了 就 能 好 。 但 是 至 于 是 怎么 得 的 胃炎 ? 是 暴 饮 暴食 导致 的 ， 是 饮酒 过 度 引 起 的 ， 是 
长 期 吃 刺激 性 食物 引起 的 ， 还 是 由 其 他 原因 引起 的 细菌 性 感染 ?这 个 在 报告 里 未 必 能 看 出 
来 ,还 需要 进行 进一步 排查 。 

在 驾驶 汽车 的 过 程 中 ， 看 到 油箱 表 下 降 较 快 也 只 是 看 到 一 个 现象 ， 当 它 下 降 到 红线 位 
置 时 就 是 提醒 我 们 应 该 去 加 油 了 。 至 于 为 什么 下 降 快 ， 是 因为 刚刚 爬 坡 ， 油 门 给 得 过 大 ， 
还 是 油箱 有 渗 漏 ? 仪表 盘 是 没 办 法 做 解读 的 ， 只 能 根据 进一步 的 各 环节 检修 进行 排查 。 

那 汽车 仪表 盘 的 场景 有 没有 “优化 ”的 手段 呢 ? 如 果 想 把 这 个 排查 的 时 间 过 程 缩短 ， 
是 不 是 可 以 在 这 些 环节 各 自 再 设立 一 个 指标 作为 众多 仪表 的 一 员 ， 如 “平均 坡度 仪 ” 一 一 
记录 刚刚 过 去 的 2 小 时 里 息 坡 的 角度 平均 为 多 少 ;“ 平 均 油门 ”一 一 记录 刚刚 过 去 的 2 小 
时 里 油门 给 得 多 大 ， 对 比 一 下 看 比 平 时 大 还 是 小 。 如 果 这 两 个 指标 都 正常 ， 那 就 说 明 十 有 
八 九 是 油箱 有 渗 漏 了 ， 也 就 不 需要 排查 其 他 环节 ， 直 接 检查 油箱 和 油 路 。 飞 机 驾驶 舱 的 仪 
表盘 非常 多 ， 你 以 为 是 飞机 制造 商 喜 欢 机 酷 还 是 飞行 员 自己 有 密集 偏好 症 吗 ? 绝对 不 是 。 
就 是 为 了 把 这 个 空 重 将 近 280 吨 的 大 家 伙 每 个 关键 环节 的 实时 状态 都 展现 在 飞行 员 的 面前 ， 
来 保证 飞行 的 安全 进行 。 图 18-1 所 示 为 空 客 A380 的 驾驶 舱 仪 表盘 ， 够 复杂 吧 ? 密集 恐惧 
证 患者 请 绕 行 。 








图 18-1 2€ A380 的 驾驶 舱 仪 表盘 
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在 驾车 的 例子 里 ,“ 优 化 ”是 加 引号 的 ， 其 实 原因 也 很 简单 ， 就 是 说 说 “优化 ”是 不 是 
真 的 够 优 。 这 个 事情 究竟 是 不 是 值得 为 此 专门 放 两 个 仪表 在 车 上 ， 毕 竟 它 是 有 成 本 的 ， 而 
且 仪表 盘 上 又 多 了 两 个 示 数 。 这 也 是 在 指标 化 运营 中 一 直面 临 的 一 个 矛盾 ， 指 标的 含义 、 
指标 的 数量 设置 要 合理 ， 要 让 这 个 指标 的 维护 和 解读 的 成 本 与 它 的 作用 和 收益 相称 。 这 一 
点 请 读者 一 定 要 注意 。 


18.2 AB 测试 


AB 测试 在 很 多 互联 网 产品 中 都 很 常用 ， 甚 至 有 很 多 老牌 的 软件 企业 也 从 这 种 方式 中 汲 
取经 验 。 

AB 测试 指 的 是 什么 呢 ? 

在 我 看 来 ，AB 测试 是 一 种 评价 体系 的 核心 思想 。 大 致 的 工作 流程 如 下 ， 当 不 知道 一 种 
产品 的 A 方案 好 还 是 B 方 案 好 时 ,或 者 两 种 设计 完全 不 同 的 产品 A 和 B 的 市 场 反 应 如 何 
时 ,会 考虑 找 两 组 用 户 来 进行 测试 。 

如 设置 两 个 对 比 组 ， A 组 100 A, B 组 100 A, 给 A 组 产品 的 A 方案 , 给 B 组 产品 的 
B 方案 ， 然 后 观测 各 种 反应 指标 。 最 后 得 出 一 种 相对 客观 的 比 对 结论 。 这 就 是 AB 测试 的 整 
体 思路 。 

AB 测试 虽然 对 于 互联 网 产品 是 一 种 舶 来 品 
了 ， 而 且 近 几 年 也 逐渐 应 用 更 为 广泛 。 

传统 行业 里 有 哪些 地 方 用 了 AB WRG? 有 的 。 

例如 ， 药 品 的 临床 测试 ， 有 很 多 新 药 ， 要 测试 其 是 否 真 的 有 效 ， 或 者 其 药 效 是 否 比 
其 他 药 的 药 效 好 ， 通 常 采用 的 方法 叫做 “随机 对 照 坛 验 ”(Randomized Controlled Trial, 
RCT)， 也 就 是 将 病 患 分 为 两 组 ， 然 后 一 组 给 药 一 组 不 给 药 ; 如 有 果 是 对 比 两 种 药物 ， 那 就 是 
一 组 给 待 测 药 一 组 给 另 一 种 对 比 药 物 ， 在 疗程 结束 后 对 比 治愈 率 。 为 了 避免 人 为 情绪 化 因 
素 以 及 个 别 样 例 的 特殊 反应 对 测试 结果 的 影响 ， 又 进化 出 一 种 叫做 “大 样本 随机 双 盲 试验 ” 
的 办 法 ， 算 是 对 “随机 对 照 试 验 ” 的 进一步 科学 化 的 诠释 。 

两 者 的 不 同 点 在 于 : 

第 一 ， 大 样本 ， 样 本 量 加 大 稀释 个 别 样 例 特殊 反应 对 统计 结果 的 影响 ; 

第 二 ， 双 言 ， 就 是 让 病 患 和 医生 都 对 药品 和 分 发 对 象 事先 不 知晓 ， 让 所 有 人 都 在 这 个 
被 他 人 安排 好 的 测试 旅程 中 一 步 一 步 进行 试验 ， 直 到 最 后 再 去 对 比 测试 的 结果 。 这 样 就 避 
免 了 在 人 与 人 接触 的 过 程 中 由 于 主观 情绪 挫 杂 在 交谈 里 引起 的 一 些 难以 把 握 的 因素 。 例 如 ， 
医生 如 果 主 观 上 对 这 种 药 不 看 好 ， 或 者 主观 上 认为 这 种 药 效果 不 错 ， 在 交谈 的 过 程 中 或 多 
或 少 会 有 情绪 上 对 病 患 的 暗示 ， 那 这 种 暗示 对 于 治疗 配合 程度 的 影响 会 干扰 测试 结果 。 假 
如 治疗 结果 好 ， 就 说 不 清 究竟 是 药品 真 的 很 管用 ， 还 是 其 中 有 更 多 “安奈 剂 ”9 的 成 分 。 . 


在 很 多 传统 行业 里 早 就 已 经 开始 使 用 





O 安慰 剂 : Placebo， 具 有 一 定 的 作用 ， 对 有 心理 因素 参与 控制 的 自主 神经 系统 功能 如 血压 、 心 率 、 胃 分 沁 、 
呕吐 、 性 功能 等 的 影响 较 大 。 它 的 心理 影响 效应 对 病症 的 缓解 在 临床 上 已 经 得 到 了 相当 程度 认可 。 
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除 此 之 外 ， 国 内 在 推行 一 些 制 度 或 者 管理 办 法 时 也 都 有 “试点 企业 ”"、“ 经 济 特区 ”的 
一 些 局 部 区 别 性 的 制度 ， 目 的 就 是 为 了 看 这 种 AB 测试 的 对 比 效果 ， 效 果 好 了 就 推广 ， 效 
果 不 好 就 停 掉 再 试 其 他 方法 。 i 


18.2.1 网 页 测试 

在 互联 网 产品 的 开发 过 程 中 ，AB 测试 的 使 用 也 是 非常 广泛 的 ， 尤 其 是 在 拿 不 准 用 户 喜 
好 的 时 候 。 

在 一 个 网 页 (界面 ) 上 线 时 ， 青 好 的 经 验 也 没 办 法 判断 究竟 这 一 次 发 布 结果 如 何 ， 在 有 
两 个 以 上 选择 时 也 会 面临 这 种 问题 。 那 就 不 如 都 交 给 市 场 ， 让 市 场 的 反应 说 了 算 。 

例如 ， 要 做 一 个 网 站 (网页)， 不 确定 用 户 对 哪 一 个 更 喜欢 ， 那 就 在 试 运营 或 者 公测 时 
让 访问 的 用 户 被 随机 分 配 到 一 种 方案 上 ， 如 果 有 两 种 备 选 方案 ， 那 就 是 A 方案 和 B 方案 。 
让 他 从 头 到 尾 都 使 用 这 一 种 方案 风格 对 网 站 (网 页 ) 进行 访问 。 记 得 把 他 访问 的 路 径 记 录 下 
来 。 某 一 个 人 个 案 性 的 访问 路 径 、 访 问 时 间 、 点 击 数 可 能 不 能 说 明 什么 ,这 必须 看 宏观 统 
计 。 在 测试 一 个 网 站 的 过 程 中 要 至 少 选择 数 百 人 进行 随机 分 派 ， 有 条 件 也 可 以 多 选 一 些 。 

但 是 为 了 保证 测试 不 是 由 于 提供 的 内 容 导 致 用 户 的 好 恶 不 同 而 只 是 由 于 表现 形式 不 同 
的 ， 那 就 要 保证 对 A、B 两 组 人 只 提供 外 形 (样式 ) 差异 的 网 站 。 因 为 除了 网 站 外 形 的 不 同 
以 外 ， 网 站 提供 的 内 容 、 访 问 产生 的 延迟 等 都 会 对 网 站 对 用 户 的 吸引 程度 有 影响 ， 这 个 因 
素 要 尽 可 能 排除 在 外 。 

在 做 完 一 轮 测试 以 后 ， 周 期 是 自己 设 定 的 ， 可 以 是 3 天 ， 也 可 以 是 7 天 或 其 他 的 天 数 ， 
如 果 基 本 能 够 保证 每 个 用 户 从 第 一 次 看 到 网 站 入 口 开始 就 被 分 成 A、B 两 组 中 的 一 组 而 且 从 
一 而 终 ， 那 就 可 以 看 看 以 下 指标 。 以 每 种 方案 为 观察 单位 。 

C1) 用 户 平均 一 次 访问 的 页 数 。 

(2) 用 户 平均 每 页 逗留 时 间 的 长 度 。 

(3 ) 用 户 再 访问 比例 。 

(4) NW 天 留存 率 (回访 率 )。 

通过 这 些 比 较 大 概 就 能 得 出 方案 熟 优 熟 劣 的 结论 了 。 也 可 能 两 者 差不多 ， 也 可 能 都 不 
太 理想 但 是 其 中 一 个 略 好 一 些 ， 但 是 这 时 已 经 能 够 做 出 选择 了 。 


18.2.2 方案 测试 

如 果 不 是 一 个 网 站 ， 而 是 某 一 个 产品 的 方案 呢 ? 还 能 这 么 简单 地 去 做 AB 测试 吗 ? 其 
实 也 是 可 以 的 ， 因 为 AB 测试 不 是 一 个 具体 的 测试 工具 而 是 一 种 测试 的 思想 。 那 我 们 再 来 
看 一 个 例子 。 

我 们 以 一 个 右 下 角 分 辩 率 为 300 x 200 像素 的 升 窗 广告 位 产品 为 例 。 如 果 你 是 这 个 广告 
位 产品 的 产品 经 理 ， 你 需要 考虑 这 个 广告 位 如 何 安 排版 面 的 问题 ， 至 少 有 以 下 两 种 选择 。 

其 一 ， 可 以 推送 一 幅 大 的 广告 。 占 满 整 个 小 广告 屏 ， 然 后 让 里 面 的 4 个 广告 位 进行 2 
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秒 为 单位 的 滚动 。 如 图 18-2° 所 示 为 一 个 6 幅 图 自动 切换 的 样 例 ， 能 够 看 到 下 面 有 6 个 切 
换 按钮 ， 在 画面 滚动 切换 时 ， 如 果 想 跳 转 到 其 他 编号 的 广告 画面 则 单 击 相应 按钮 进行 切换 。 
4 幅 广告 也 是 同 理 ， 只 是 切换 按钮 只 有 4 个 。 


DET 





Kd 18-2 6 幅 图 自动 切换 


其 二 ,可 以 推送 4 幅 小 的 广告 。 让 这 4 幅 小 的 广告 拼 起 来 占 满 整个 小 广告 屏 。 如 图 
18-3 8 所 示 为 一 个 9 幅 图 的 样 例 ， 版 式 为 3x3， 也 有 4 幅 图 的 ， 即 版 式 为 2x2。 





图 18-3 9 幅 图 同时 显示 
在 用 户 触 发 了 这 次 广告 推送 的 事件 以 后 ， 广 告 后 台 就 要 做 出 反应 ， 可 以 用 随机 的 方法 





进行 1:1 的 推送 ， 即 让 这 两 种 展示 方式 在 每 次 请 求 中 的 几率 均等 ， 都 是 50%。 一 般 来 说 ， 
这 基本 也 能 够 保证 足够 的 随机 性 了 。 
之 后 就 可 以 观察 究竟 由 哪 一 个 带 来 的 广告 点 击 转 化 率 高 ， 是 第 一 种 方式 容易 诱导 用 户 


O 图 片 来 源 于 京东 商城 截图 
O 图 片 来 源 于 淘宝 网 截图 
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点 击 广告 位 还 是 第 二 种 方式 容易 诱导 用 户 点 击 广告 位 ， 这 通过 用 点 击 数 除 以 推送 数 就 能 够 
得 出 来 ， 甚 至 用 不 了 一 天 就 出 结果 ， 极 容易 验证 。 只 要 有 了 结果 ， 就 可 以 考虑 在 全 局 使 用 
这 种 方案 了 ， 因 为 已 经 有 了 足够 的 且 确 实 的 理由 。 

在 做 互联 网 产品 时 千 万 不 要 犯 经 验 主 义 的 错误 ， 经验 永远 是 局 限 的 ， 唯 一 不 变 的 东西 
就 是 变化 本 身 。 像 这 种 广告 ,在 没有 测试 之 前 不 能 武断 地 认为 一 定 是 哪个 更 好 ， 因 为 两 种 
方式 也 确实 各 有 优 缺 点 。 

第 一 种 大 广告 好 处 是 图 片 清晰 ， 内 容 可 以 更 丰富 ; 不 好 的 因素 是 滚动 ， 滚 动 就 意味 着 
不 能 一 日 了 然 地 看 清 所 有 的 信息 。 第 二 种 广告 的 好 处 是 一 目 了 然 ; 不 好 的 因素 是 可 用 的 分 
辩 率 变 小 ， 文 字 和 图 片 的 展示 都 比 第 一 种 更 为 有 限 。 哪 种 转化 率 高 只 能 通过 比 对 结果 的 数 
据 来 说 话 了 。 

扩展 一 下 这 个 话题 。 如 果 想 把 这 个 例子 做 到 极致 ， 还 可 以 尝试 对 每 次 弹出 的 信息 做 分 
类 。 区 分 一 下 素材 和 题材 ， 在 相同 的 素材 和 题材 下 面 去 对 比 看 哪 一 种 转化 率 高 。 如 最 后 方 
案 AB 测试 对 比 结果 可 能 如 表 18-1 所 示 。 

表 18-1 AB 测试 对 比 结果 


方案 一 转化 率 (%) | 方案 二 转化 率 (%) 方案 一 转化 率 (96) 
0.64 








方案 二 转化 率 (%) 














服装 类 
鲜花 类 
书籍 类 











如 果 能 够 得 到 这 样 一 个 表格 ， 那 么 在 不 同 的 广告 投放 方案 被 触发 时 是 可 以 采用 不 同 的 
排版 策略 的 ， 这 样 会 比 “一 刀 切 ”的 排版 方式 提供 更 大 的 全 局 转化 率 。 

其 他 维度 上 的 对 比 可 以 再 想 其 他 方式 ， 总 之 ， 有 了 AB 测试 ， 基 本 所 有 这 种 难以 琢磨 
的 偏好 把 握 都 有 了 量化 对 比 的 手段 。 


18.2.3 WER 

在 游戏 新 版 本 的 发 布 环节 中 有 一 个 名 阔 叫 “ 灰 度 发 布 ” 。 这 个 词 很 形象 ， 因 为 它 表 示 的 
就 是 一 个 “黑白 混杂 ”的 情况 。 

那 “ 黑 ”和 “ 白 ” 分 别 指 什么 呢 ? 其 实 我 们 可 以 认为 “ 黑 ” 就 是 旧版 本 ,“ 白 ”是 新 版 本 ， 
在 两 个 版 本 进行 更 迭 时 就 是 一 个 从 “ 黑 ” 到 “ 拍 ” 的 过 程 。 

一 般 一 个 游戏 的 客户 端 从 启动 就 开始 检测 是 否 有 新 版 本 可 以 更 新 ， 如 果 有 ， 它 就 会 启 
动 更 新 模块 开始 下 载 ， 并 把 这 些 文件 覆盖 到 客户 端 游 戏 的 程序 中 去 。 不 得 不 承认 ， 即 便 在 
技术 积累 非常 好 的 公司 里 ， 在 全 网 范围 内 做 更 新 都 是 一 件 很 有 风险 的 事情 ， 这 个 风险 很 大 
程度 上 已 经 不 是 技术 层面 的 风险 了 即便 在 封 测 阶段 、 内 测 阶段 、 体 服 公测 阶段 (在 体验 
服务 硕 上 进行 的 半 公 开 测试 ) 的 测试 都 能 通过 ， 不 死机 、 不 闪 退 、 不 卡 顿 ， 其 实 也 并 不 能 保 
证 在 全 网 更 新 后 游戏 论坛 会 被 吐槽 的 人 民 和 群众 刷 屏 。 毕 竟 游 戏 版 本 中 的 对 错 不 是 以 技术 标 
准 来 衡量 的 ， 更 多 的 是 玩家 情绪 的 反应 ， 而 情绪 这 个 东西 又 太 复 杂 ， 在 这 些 测试 的 阶段 也 
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不 一 定 能 测 出 好 的 效果 。 怎 么 办 ?“ 灰 度 发 布 ” 应 运 而 生 。 

用 策略 文件 进行 控制 ， 可 以 仅 对 全 网 环境 中 的 部 分 用 户 一 一 可 以 是 5%， 可 以 是 10%， 
也 可 以 再 多 一 些 (但 是 这 些 数量 级 比 封 测 和 体 服 的 数量 级 还 是 大 多 了 ) 进行 更 新 ， 看 看 他 们 
的 反应 。 这 些 反 应 有 的 会 直接 体现 在 当天 的 DAU (日 活跃 用 户 ) 上， 也 可 能 体现 在 下 面 接 
连 几 天 的 DAU 上， 也 可 能 体现 在 其 他 指标 上 ， 也 有 可 能 会 更 直接 地 体现 在 官网 论坛 上 或 者 
客服 的 电话 里 。 

每 次 “ 灰 度 发 布 ” 都 是 一 个 决策 的 实验 而 已 ， 而 接 下 来 就 是 两 种 选择 。 一 种 ， 反 响 良 
好 ， 继 续 更 新 到 全 网 范围 内 。 另 一 种 ， 反 响 不 理想 ， 把 已 经 升级 的 客户 端 回 滚 到 前 一 个 稳 
定 版 本 一 一 不 能 变 好 起 码 也 要 保持 现状 。 

“ 灰 度 发 布 ” 在 游戏 里 用 得 多 只 是 因为 游戏 的 版 本 更 迭 比 较 频繁 ， 仅 此 而 已 ， 并 非 它 只 
适合 于 游戏 软件 。 其 他 任何 的 可 以 通过 互联 网 进行 分 发 的 软件 产品 都 可 以 采用 这 种 思路 ， 
甚至 是 云端 用 网 页 来 实现 的 软件 也 能 用 这 种 方式 进行 试探 性 的 用 户 反馈 测试 。 思 路 就 是 这 
样 ， 简 单 吧 ? 

不 要 小 看 这 个 简单 的 东西 ， 用 得 好 会 让 产品 每 次 都 能 顺利 疏 台 阶 ， 一 步 一 步 走向 正确 
的 方向 ， 这 比 求助 任何 行业 专家 都 要 成 本 低 而 且 反 馈 灵 敏 。 








18.2.4 注意 事项 

AB 测试 虽然 好 用 ， 但 是 也 需要 注意 技巧 ， 尤 其 是 它 的 局 限 性 。 请 务必 注意 ! 

AB 测试 测试 的 是 两 种 不 同 的 方案 ， 虽 然 能 够 比较 出 哪 一 种 效果 更 好 ， 然 而 方案 的 相 异 
点 越 多 ， 越 无 法 定位 造成 影响 的 原因 。 


1. 量化 比较 对 象 

在 对 比 的 过 程 中 尽 可 能 去 量化 比较 的 对 象 。 例 如 ， 在 网 站 外 形 的 比较 中 ,字体 大 小 的 
磅 数 ， 显 示 窗 体 大 小 的 尺寸 ， 每 页 的 行 数 ， 如 果 想 进行 研究 把 他 们 作为 对 比 的 对 象 的 话 ， 
这 些 值 是 要 量化 的 。AB 测试 有 可 能 会 进行 多 轮 ， 多 轮 之 间 的 结果 对 比 要 形成 一 定 的 结论 性 
的 东西 ， 也 就 是 要 试 出 一 个 经 验 值 (Magie Number) 或 者 一 个 知识 。 至 少 下 一 次 再 做 同类 
的 事情 不 需要 从 头 开 始 试 起 ， 而 如 果 要 试 ， 也 就 是 试 一 下 有 没有 比 这 个 已 知 的 最 好 值 更 好 
的 值 。 这 对 于 “创新 即 生 命 ” 的 互联 网 产品 是 极 有 意义 的 。 你 能 接受 所 有 的 运营 人 员 每 天 


都 在 用 “大 一 点 ",“ 稍 微 有 点 小 ",“ 不 够 快 ”这 种 感性 的 说 法 来 在 彼此 之 间 传 递 信息 吗 ? 
如 果 不 能 ， 那 就 尽量 做 到 量化 吧 。 
2. 单 一 化 





两 个 网 站 方案 ， 色 调 不 同 ， 文 字 大 小 不 同 ， 布 局 也 不 同 ， 每 一 页 的 条 目 数量 不 同 ， 即 
便 最 后 确实 能 比较 出 来 有 一 种 风格 更 容易 被 人 喜欢 。 但 是 ， 究 竟 是 由 哪 一 种 或 几 种 因素 S| 
发 ”了 这 种 偏好 的 表现 不 得 而 知 。 

如 果 一 定 要 得 到 对 应 的 解释 ， 应 在 每 次 方案 比较 时 把 方案 之 间 不 同 的 地 方 压缩 到 最 少 ， 
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如 只 有 一 个 方面 不 同 ， 其 他 的 都 相同 。 通 常 这样 比 较 出 来 的 结果 针对 性 会 非常 强 ， 对 形成 
自己 完善 的 产品 运营 和 演进 体系 是 有 好 处 的 。 如 果 担 心 要 验证 的 方面 太 多 会 让 验证 周期 加 


长 ， 则 可 以 同时 开启 多 个 AB 测试 的 对 照 组 ， 每 个 对 照 组 进行 独立 的 单一 属性 的 对 比 ， 这 
样 也 能 够 在 一 定 程度 上 缩短 测试 的 周期 。 
3. 强 隔离 


AB 测试 还 要 注意 一 个 问题 ， 也 就 是 测试 的 环境 应 该 是 一 种 强 隔 离 的 环境 ， 因 为 测试 对 
象 内 部 与 外 界 如 果 联 系 过 多 会 直接 导致 测试 的 失败 或 者 根本 无 法 进行 。 

世界 上 很 多 国家 都 是 实行 夏 时 制 的 ， 如 澳大利亚 、 俄 罗斯 以 及 欧盟 各 国 。 

夏 时 制 指 的 是 一 种 为 节约 能 源 而 人 为 规定 地 方 时 间 的 制度 ， 在 这 一 制度 实行 期 间 所 采 
用 的 统一 时 间 称 为 “夏令 时 间 ” 一 一 对 应 的 非 制度 期 间 叫 做 “冬令 时 间 ”。 一般 在 天 亮 得 早 
的 夏季 人 为 将 时 间 提 前 一 小 时 ， 如 把 表 从 9:00 RE 8:00， 然 后 在 5 个 月 后 夏令 时 结束 的 时 
候 再 把 表 从 8:00 拨 回 到 9:00 而 且 是 全 国人 民 都 这 么 做 ， 据 说 这 样 可 以 使 人 早起 早 睡 ， 减 少 
照明 量 ， 以 充分 利用 光照 资源 ， 从 而 节约 照明 用 电 。 

我 国 在 1935 年 到 1979 年 间 间 断 地 实行 过 若干 次 夏 时 制 ， 最 近 的 一 次 是 1986 年 到 
1991 年 ， 每 年 的 4 月 到 9 月 这 5 个 月 时 间 实 行 夏 时 制 。 最 后 还 是 由 于 认为 这 种 制度 得 不 偿 
失 而 取 消 掉 一 一 不 管 怎么 说 ， 在 这 段 时 间 里 ， 要 保证 所 有 的 计时 器 时 间 都 同步 变化 这 一 个 
小 时 ， 学 校 上 课 、 火 车 载 客 、 医 院 就 诊 ， 机 构 的 时 钟 要 变 ， 人 的 时 钟 也 要 变 。 最 要 命 的 是 
不 少 人 要 为 这 1 个 小 时 花 一 两 周 来 倒 时 差 。 所 以 权衡 利 次 ,在 1991 年 以 后 我 国 再 也 没有 做 
过 夏 时 制 的 调整 。 

按说 这 种 全 国 性 的 新 制度 政策 应 该 就 像 经 济 特区 或 者 试点 城市 一 样 做 一 个 试点 性 的 测 
试 ， 但 是 就 是 真 的 有 人 想 做 铠 怕 实行 者 也 会 说 “不 管 是 城 里 还 是 乡下 这 东西 都 不 会 玩 ”。 这 
些 试点 城市 和 外 界 的 一 切 联 系 都 是 要 靠 时 间 来 进行 同步 的 ， 尤 其 是 在 国内 这 么 频繁 互动 的 
环境 ， 这 个 地 区 和 其 他 地 区 的 交通 时 刻 表 要 做 一 个 1 小 时 的 差 值 变换 ， 电 视 节 目 转 播 要 做 1 
小 时 的 差 值 变换 ， 慌 怕 连 打 个 电话 都 要 将 这 边 是 几 点 那 边 是 几 点 反复 强调 ， 这 些 同 样 是 巨 
大 的 成 本 。 


4. 其 他 不 良 后 果 

如 果 要 对 产品 用 户 做 大 礼包 赠送 这 种 活动 ， 可 是 不 知道 送 什么 细节 内 容 组 合 让 用 户 更 
有 黏着 性 或 更 满意 。 这 种 情况 也 是 可 以 考虑 使 用 AB 测试 的 。 

准备 两 种 不 同 内容 的 礼包 ， 然 后 让 用 户 自 己 选 ， 记 得 做 好 登记 工作 以 及 事后 持续 不 断 
的 数据 反馈 工作 ， 这 样 较为 妥 帖 。 

切忌 1: 不 允许 选择 。 

如 果 不 让 用 户 自己 选择 ， 而 是 进行 随机 性 的 派发 ， 那 么 很 可 能 会 让 用 户 收 到 自己 不 满 
意 的 礼包 而 其 实 明明 有 男 外 一 种 礼包 可 能 更 适合 他 却 没 有 派送 给 他 。 这 种 情况 如 果 被 用 户 
知道 ， 轻 则 背地 里 吐槽 说 运营 人 员 脑 子 进 水 ， 重 则 会 引发 用 户 集 体 性 拂 袖 而 去 。 反 正 哪 一 
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种 都 不 是 原先 派发 礼包 的 目的 。 而 且 在 大 量 的 自主 选择 的 过 程 中 也 能 看 出 一 定 的 情趣 取向 。 
切忌 2: 价值 悬殊 。 
如 果 所 做 的 两 种 对 比 礼包 内 容 价值 相差 悬殊 ， 尤 其 是 非 自 主 性 选择 的 情况 下 ， 也 会 引起 
用 户 对 公司 厚 此 薄 彼 策略 的 猜测 ， 如 果 公 关 部 门 不 能 很 好 地 处 理 可 能 有 引发 一 些 群 体 事件 。 


18.3. 数据 可 视 化 


数据 可 视 化 是 一 个 一 直 以 来 都 被 数据 运营 人 员 重 视 的 问题 。 做 好 数据 可 视 化 ， 关 键 有 
以 下 两 点 。 

我 在 大 学 毕业 毕业 不 久 的 时 候 ， 由 于 对 职场 工作 感觉 心里 没 底 ， 曾 经 问 过 一 个 世界 500 
强 的 大 型 化 妆 品 跨国 公司 的 大 中 华 区 总 经 理 一 一 好 在 他 是 我 表姐 夫 ， 不 收 咨询 费 。 我 问 他 ， 
“工作 怎么 去 把 控 ， 报 表 怎么 做 比较 好 ?” 他 只 说 了 几 旬 话 ， 让 我 当时 也 是 茅 塞 顿 开 ， 虽然 
当时 是 确实 “不 明 觉 厉 ” 的 感觉 但 今天 回想 起 来 感觉 这 真 的 是 精华 中 的 精华 。 

第 一 ,一 切 工作 尽量 目标 化 和 数字 化 。 这 个 其 实说 的 就 是 指标 运营 的 问题 ， 就 算是 公 
司 没有 指标 ， 自 己 对 自己 有 指标 的 要 求 也 会 让 人 有 激励 自己 进步 的 能 力 。 i 

第 二 ， 陈 述 简洁 化 。 能 用 图 的 不 要 用 表格 ， 能 用 表格 的 不 要 用 条 目 ， 能 用 条 目的 不 要 
用 段落 。 这 个 其 实说 的 是 可 视 化 的 问题 。 


18.3.1 图 表 

在 运营 中 对 可 视 化 的 重视 不 是 因为 我 们 要 赶 时 屠 ， 喜 欢 喊 口号 ， 而 是 人 自身 对 外 界 信 
息 认 知 本 身 就 有 的 敏感 而 有 的 迟钝 。 很 多 东西 与 生 俱 来 ， 要 让 说 教 使 得 每 个 人 克服 这 种 迟 
印 的 难度 很 大 ， 不 如 从 人 认 知 特点 的 角度 进行 弥补 ， 这 才 是 可 视 化 被 重视 的 根源 一 一 也 就 
是 以 人 为 本 。 

信息 越 少 ， 人 的 注意 力 越 容易 集中 ; 反之 ,信息 越 多 ， 人 的 注意 力 越 不 容易 集中 。 这 
才 是 在 报表 上 应 该 着 力 注意 的 问题 。 

人 们 对 图 的 敏感 度 是 比较 高 的 ， 对 形状 和 颜色 的 敏感 度 也 比较 高 。 所 以 在 数据 可 视 化 
中 多 采用 柱状 图 、 折 线 图 、 散 点 图 、 饼 图 、 雷 达 图 、 热 力图 …… 

柱状 图 如 图 18-4 9 Pro 

折线 图 如 图 18-5e 所 示 。 

柱状 图 和 折线 图 主要 是 用 来 观察 变化 趋势 的 。 

散 点 图 如 图 18-6 9 Bro. 


引用 自 echarts.baidu.com 网 站 示例 。 
引用 自 echarts.baidu.com 网 站 示例 。 
引用 自 echarts.baidu.com 网 站 示例 。 
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图 18-4 柱状 图 
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Anscombe's quartet 


EN. Bo 








图 18-6 散 点 图 
散 点 图 是 用 来 观察 分 布 密度 的 。 示 例 中 的 散 点 图 看 上 去 像 是 做 回归 用 的 ， 而 平常 多 见 
的 散 点 图 通常 是 没有 用 直线 去 穿 点 的 过 程 的 
饼 图 如 图 18-7 HZR o 


某 站 点 用 户 访问 来 源 


ca 直接 访问 
E 邮件 营销 
mm 联盟 广告 
um 视频 广告 
ma 搜索 引擎 


搜索 引擎 





视频 广告 





图 18-7 人 饼 图 


© 引用 自 echarts.baidu.com 网 站 示例 
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饼 图 是 用 来 观察 比例 关系 的 。 
热力 图 如 图 18-8 € Bro. 





图 18-8 ”热力 图 


热力 图 是 用 来 观察 连续 维度 下 的 “热度 ”变化 的 ， 是 一 种 特殊 的 散 点 图 。 
雷达 图 如 图 18-9 所 示 。 

行业 知识 

10 





图 18-9 雷达 图 


© 引用 自 echarts.baidu.com 网 站 示例 。 
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雷达 图 是 用 来 表示 单个 对 象 多 维度 (属性 ) 分 布 均衡 度 的 。 
还 有 很 多 更 为 丰富 的 图 表 内 容 ， 也 有 一 些 是 这 些 基 本 图 形 图 表 的 变种 ， 但 是 能 够 掌握 
这 些 就 已 经 能 够 在 平时 的 数据 挖掘 和 运营 中 解决 绝 大 部 分 问题 了 。 


18.3.2 ”表格 

有 的 数据 内 容 维度 多 ， 超 过 2 维 的 向 量 数据 已 不 能 在 A4 纸 上 打 印 ， 而 超过 3 维 的 向 量 
数据 在 计算 机 显示 器 上 也 很 难 表 示 出 来 。 这 种 高 维度 的 数据 不 方便 用 图 形 表 示 ， 所 以 只 能 
退 而 求 其 次 用 表格 来 表示 。 

表格 的 好 处 是 内 容 丰 富 而 且 行列 规整 、 横 平 竖 直 ， 是 一 种 非常 好 的 结构 化 数据 标本 。 
然而 即便 是 这 样 领导 们 也 是 不 喜欢 看 表格 的 ， 数 字 天 然 就 没有 颜色 和 形状 对 人 的 视觉 刺激 
感 好 。 好 在 一 般 都 是 数据 科学 家 面 对 大 量 的 多 维 数据 分 析 ， 分 析 成 低 维度 数据 交 给 决策 层 
时 已 经 可 以 用 视觉 冲击 良好 的 图 表 来 表现 了 ， 例 如 ， 图 18-10? 所 示 的 二 维 表格 。 
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图 18-10 ”二 维 表格 


最 不 推荐 的 就 是 用 条 目 来 做 描述 ， 如 果 用 ， 也 是 用 于 在 一 个 图 形 或 者 一 个 表格 之 后 做 


补充 说 明 。 
段落 化 的 陈述 最 不 提倡 ， 因 为 人 们 从 这 种 非 结构 化 的 陈述 中 提取 信息 是 时 间 成 本 最 高 的 。 


18.4 ”多 维度 一 一 大 数据 的 灵魂 


18.4.1 多 大 算 大 


“大 数据 ”这 个 词 本 身 具 有 莫大 的 误导 性 ， 再 加 上 行业 里 动 辑 宣传 和 鼓吹 Google, 
Facebook 的 机 房 有 多 大 ， 存 量 有 多 大 ， 就 更 容易 让 人 们 认为 ， 必 须 数据 量 超级 大 才 算 大 数 


O 图 片 来 源 于 百度 图 库 
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HATI, 才 算 “ 大 ”数据 。 认 为 数据 很 多 才 算 大 才 有 价值 ， 就 好 比 饭 越 多 越 好 吃 ， 音 乐 
声音 越 大 才 越 好 听 一 样 经 不 起 推敲 。 | 

做 大 数据 的 目的 究竟 是 什么 呢 ? 尤其 是 作为 商业 用 途 来 说 ， 无 非 是 为 了 多 赚钱 或 者 多 
省 钱 ， 不 论 是 直接 的 还 是 间接 的 。 一 旦 脱离 开 这 些 ， 谁 来 买单 ， 谁 来 背 成 本 ? 大 数据 价值 
就 成 了 伪 命 题 。 

Google fll Facebook 这 样 的 公司 做 大 规模 系统 的 目的 也 不 是 为 了 炫 富 ， 而 是 他 们 确实 数 
据 量 膨胀 到 一 定 程 度 了 ， 不 得 不 使 用 一 些 平时 应 用 场景 里 不 多 见 的 技术 ， 所 以 “这 些 技术 
一 定 是 大 数据 的 必 备 条 件 ” 就 自然 变 成 了 误导 人 们 的 信息 。 作 为 挑战 尖端 科技 和 中 国 这 种 
人 口 基数 的 互联 网 公司 的 客观 需求 ， 研 究 超大 规模 架构 集群 技术 是 一 个 方向 而 且 绝对 正确 ， 
但 不 建议 中 小 型 公司 邯郸 学 步 。 

中 小 型 公司 需要 大 数据 吗 ? 答案 是 肯定 的 ， 不仅 需 要 ,而且 非 常 需要 。 中 小 型 公司 要 
用 大 数据 做 什么 ? 这 种 需求 多 少年 来 一 直 没 有 变 过 ， 还 是 刚刚 说 的 要 么 多 赚钱 要 么 多 省 钱 。 
多 赚钱 多 省 钱 的 途径 在 数据 运营 中 最 常见 的 就 是 指标 管理 ， 再 有 就 是 诸如 财务 分 析 、 人 力 
成 本 分 析 、 工 作 效 率 及 成 果 分 析 等 。 这 些 东西 在 日 常生 产生 活 中 占 了 绝 大 多 数 的 数据 应 用 
场景 。 对 这 些 对 象 研究 明白 了 就 已 经 能 解决 大 部 分 运营 问题 了 。 

如 果 还 想 做 得 深入 一 些 怎么 办 ?再 把 参考 维度 的 数据 增多 就 可 以 了 ， 如 刚刚 这 些 数据 
指标 是 否 和 气候 变化 有 关 ? 是 否 和 地 理 位 置 有 关 ? 是 否 和 大 气 污染 程度 有 关 ? 是 否 跟 当前 
热 播 的 电视 剧 有 关 ? 是否 跟 短 时 间 内 网 上 的 一 个 热 词 有 关 ? 是 否 跟 交通 状况 有 关 ? 是 否 跟 
人 们 使 用 的 上 网 设备 有 关 等 。 这 些 数据 的 引入 不 需要 做 得 非常 多 ,只 要 相互 结合 有 效 且 
丰富 适度 ， 就 可 以 挖掘 。 甚 至 指标 自身 前 后 是 否 彼此 有 影响 规律 ， 也 是 一 个 值得 研究 的 
课题 


18.4.2 ”大 数据 网 络 

大 数据 很 重要 ， 尤 其 是 从 国家 战略 的 高 度 来 看 这 个 问题 就 更 是 如 此 。 国 家 要 做 决策 需 
要 很 多 事实 作为 依据 ， 尤 其 需要 大 量 的 数据 作为 参考 。 数 据 的 获取 有 很 多 途径 ， 而 成 本 最 
高 的 也 许 莫 过 于 派出 专门 的 调查 小 组 去 做 访谈 和 总 结 了 。 这 种 方式 缺点 显而易见 一 一 时 间 
周期 长 ， 人 工 成 本 高 ， 协 调 工 作 难 度 大 。 其 实 根本 没有 必要 派出 很 多 调查 小 组 去 调查 能 从 
大 数据 网 络 中 得 到 的 信息 ， 正 所 谓 “ 一 叶 知 秋 ” 

从 广泛 部 署 的 物 联网 来 看 ， 很 多 以 前 不 可 想象 的 问题 到 现在 已 经 逐步 得 到 了 解决 

想 知道 一 个 地 区 繁荣 程度 如 何 ” 最 简单 的 就 看 用 电 和 用 水 就 可 以 了 ， 带 有 远程 抄 表 功 
能 的 智能 电表 、 水 表 可 以 进行 实时 数据 归 集 ， 每 天 都 能 看 到 数字 的 变化 。 做 做 同比 、 环 比 
就 知道 这 个 地 区 的 电器 和 人 口 活 跃 程度 有 没有 变化 ， 不 管 是 常 驻 的 还 是 流动 的 ， 而 且 还 能 
区 分 是 民用 水 电 的 增加 还 是 工业 水 电 的 增加 。 





O 《淮南 子 :说 山 训 》 见 一 叶 落 而 知 岁 之 将 莫 
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想 知道 一 个 地 区 交通 状况 如 何 ? 看 看 那些 高 速 公路 和 国道 、 省 道上 的 测速 摄像 头 记 录 
就 能 知道 。 什 么 时 间 ， 车 流通 过 多 少 ， 车 速 如 何 ， 就 能 够 从 一 定 程 度 反 映 出 交通 的 情况 ， 
是 人 迹 窒 密 还 是 车 水 马龙 ， 是 风 驰 电 捍 还 是 拥堵 不 堪 。 如 果 做 路 段 改 造 ， 成 果 也 能 从 这 些 
数据 里 直接 得 到 体现 ， 而 且 都 是 立竿见影 。 

想 知道 一 个 地 区 的 水 文 信息 、 气 候 信 息 ， 也 没 问 题 ， 传 感 网 络 可 以 遍及 到 每 个 人 迹 罕 
至 的 地 方 ， 不 管 是 江河 湖 海 还 是 沙漠 沼泽 ， 无 人 值守 的 传感器 可 以 为 人 们 代劳 数据 收集 和 
上 报 的 工作 。 

总 而 言 之 ， 这 些 原 本 需要 大 量 花费 人 力 物 力 才能 进行 收集 和 统计 的 数据 ， 做 起 来 已 经 
越 来 越 轻松 一 一 在 这 背后 是 大 数据 中 心 的 功劳 。 这 样 的 工作 量 在 大 数据 时 代 到 来 之 前 是 根 
本 没 办 法 想象 的 。 

一 个 一 个 独立 的 大 数据 中 心 能 够 在 某 一 个 分 领域 或 者 一 个 地 区 做 到 数据 收集 ， 数 据 存 
储 ， 数 据 分 析 ， 但 这 还 不 是 数据 的 终极 价值 。 因 为 人 类 社会 客观 上 来 说 是 广泛 联系 的 ， 这 
种 联系 既然 存在 于 人 与 人 、 人 与 物 、 物 与 物 之 间 ， 那 必定 能 够 体现 于 广泛 联系 的 数据 之 
中 。 因 此 ， 一 个 孤立 的 大 数据 中 心 建 得 再 好 也 是 无 法 从 割裂 的 数据 去 诠释 全 局 的 数据 全 貌 
的 。 如 果 想 要 了 解 这 种 广泛 的 联系 ， 那 必定 会 产生 广泛 的 数据 交换 的 需求 ， 这 就 是 大 数据 
网 络 一 一 由 大 数据 中 心 彼此 连接 形成 的 数据 交换 网 络 。 


18.4.3 ”去 中 心 化 才能 活跃 

大 数据 中 心 之 间 之 所 以 会 形成 网 络 ， 不 是 因为 有 人 以 强制 手段 命令 它 成 为 这 种 样子 ， 
同样 是 自然 形成 的 一 一 以 自然 形成 的 东西 其 背后 的 力量 就 是 自然 (这 里 的 自然 不 是 说 的 山川 
湖泊 花鸟 鱼 虫 的 这 种 保护 自然 环境 的 自然 ) 的 力量 ， 自 然 的 力量 远 比 人 类 的 力量 注 涯 与 不 可 
逆转 

人 类 在 世界 各 地 的 大 陆 和 岛屿 上 广泛 分 散 存 在 而 不 是 集中 存在 ， 即 便 是 集中 聚居 在 城 
市 之 中 ,城市 的 规模 也 是 有 限 的 ， 要 想 在 更 大 规模 内 形成 交互 和 协作 ， 城 市 和 城市 之 间 就 
要 建立 联系 。 容 易 让 肉眼 看 到 的 东西 如 高 速 公路 、 电 话 线 缆 、 光 纤 网 络 、 飞 机 航线 等 ， 这 
些 都 是 联系 的 方式 。 城 市 本 身 是 拥有 膨胀 和 雪 缩 的 自然 动力 的 ， 城 市 的 边界 扩展 和 萎缩 说 
到 实质 还 是 由 于 资源 ， 也 就 是 人 口 和 支持 人 口 的 一 切 生 存 必 需 物 质 是 否 支 持 其 膨胀 。 当 城 
市 膨胀 到 一 定 程 度 时 必然 会 引发 极 多 的 “大 城市 病 "， 如 就 医 难 、 上 学 难 、 出 行 难 …… 说 来 
说 去 还 都 是 资源 分 配 不 足 的 问题 ， 这 些 问 题 势 必 对 城市 扩张 形成 阻碍 。 

大 数据 产业 的 发 展会 遇 到 完全 一 样 的 问题 ， 数 据 资源 的 集中 必然 会 带 来 交换 速度 加 快 、 
备份 方便 、 计 算 方 便 等 多 种 便利 ， 而 同时 也 会 提高 大 数据 中 心 建设 的 难度 。 人 工 成 本 、 电 
力 成 本 、 管 理 成 本 、 灾 备 硬件 成 本 ， 这 些 都 在 给 资本 输入 行业 抬 高 门槛 。 而 这 种 牵 一 发 而 
动 全 身 的 庞大 结构 也 让 每 一 次 技术 演进 、 技 术 决 策 、 方 案 调 整 如 履 薄 冰 。 资 源 越 集 中 对 于 
资源 调度 的 难度 其 实 就 越 大 ， 这 个 和 人 类 本 身 的 认 知 和 掌控 能 力 有 关 。 

大 数据 产业 里 任何 一 个 环节 的 发 展 思路 都 应 该 以 去 中 心 化 为 原则 ， 而 不 应 直 奔 “大 而 
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全 ”的 目标 。 这 个 原理 就 像 做 这 样 的 选择 一 样 : 是 在 中 国 建立 一 个 大 城市 还 是 几 百 个 分 散 
的 小 城市 ， 是 建立 一 个 特别 大 的 超市 还 是 若干 个 分 散 的 小 超市 ， 是 建 一 个 特别 大 的 办 事 处 
还 是 分 散 的 小 办 事 处 。 哪 种 更 有 好 的 操作 性 ， 哪 种 更 容易 帮助 资源 得 到 合理 分 配 ， 哪 种 方 
式 就 应 该 是 首选 。 

去 掉 中 心 的 本 身 不 是 目的 ， 去 掉 中 心 是 为 了 发 展 更 为 迅速 。 为 此 同样 还 要 让 各 个 分 散 
的 大 数据 中 心 以 及 各 个 生产 环节 建立 连接 ， 尤 其 是 帮助 数据 在 逻辑 层面 建立 连接 ， 让 它们 
的 维度 扩展 和 丰富 起 来 。 


18.4.4 ”数据 会 过 剩 吗 

数据 作为 一 种 产品 ， 它 的 生产 会 过 剩 吗 ? 先 说 说 商品 为 什么 会 过 剩 的 。 

从 书本 上 学 到 的 商品 过 剩 的 概念 也 好 ， 还 是 在 平时 的 生活 中 碰 到 的 商品 过 多 而 产生 的 
大 甩卖 也 好 ， 是 一 种 供 大 于 求 的 现象 。 换 句 话 说， 生产 了 大 量 的 超过 市 场 消化 能 力 的 产品 ， 
就 是 过 剩 。 

过 剩 很 可 怕 。 粮 食 生产 过 剩 ， 粮 贱 伤 农 ,农民 藻 不 堪 言 ; 成 衣 生 产 过 剩 ， 也 就 只 能 低 
价 甩卖 ,其 至 是 没有 最 低 只 有 更 低 一 一 我 国 在 20 世纪 80 年 代 初 到 90 年 代 中 后 期 在 全 国 各 
eS TS AEA FPE. TS 

， 纺 织 厂 也 是 并 转 关 停 。 

想 想 看 ， 数 据 会 不 会 有 一 天 生产 过 剩 ， 以 至 于 大 家 都 廉价 去 售卖 数据 甚至 不 要 钱 让 别 
人 来 用 自己 的 数据 呢 ? 

即便 是 在 有 知识 产权 保护 的 前 提 下 ， 有 一 点 也 是 可 以 肯定 的 ， 那 就 是 同 质 的 数据 是 有 
可 能 “过 剩 ” 的 。 如 果 大 家 都 售卖 的 是 完全 一 样 的 数据 ， 连 质量 也 完全 一 样 ， 那 么 这 种 数 
据 必 然 会 产生 供过于求 的 情况 一 一 两 个 完全 一 样 的 物品 (服务) 那 就 只 能 比 谁 更 便宜 。 这 种 
情况 下 ， 数 据 生 产 商 其 实 就 退 变 成 中 介 了 ， 而 且 还 不 是 高 档 的 中 介 ， 这 不 是 大 数据 产业 核 
心 的 意义 所 在 。 

nuu m ET ts 
到 它 ， 这 个 上 限 就 是 “世界 乃至 宇宙 发 生 所 有 行为 综合 的 客观 描述 ”。 道 你 同意 不 
同意 。 

世界 上 的 万 事 万 物 都 是 运动 的 ， 每 一 刻 ， 每 一 个 行为 都 是 可 以 进行 量化 的 客观 记录 的 ， 
这 些 记录 将 形成 一 个 无 穷 大 的 数据 样本 空间 ， 连 维度 都 是 无 穷 大 的 ， 大 到 无 法 记录 全 貌 。 
现在 这 一 刻 虽 然 意 识 到 大 数据 世界 的 重要 ， 但 是 仅仅 是 在 整个 大 数据 空间 的 奇 点 上 ， 真 正 
的 大 数据 市 场 还 远 远 没有 开始 ， 还 有 大 量 的 数据 根本 没有 记录 甚至 有 很 多 有 价值 的 数据 还 
没 被 人 们 认识 到 是 数据 。 

这 些 还 没 被 认识 到 的 数据 同样 会 受到 供需 的 影响 ， 缓 组 地、 逐步 地 纳入 人 类 的 数据 研 
究 视 线 ， 这 只 是 时 间 和 性 价 比 的 问题 而 已 。 所 以 从 这 个 角度 来 说 ， 数 据 的 生产 会 过 剩 吗 ? 
应 该 说 ， 不 会 ， 而 且 永 远 不 会 。 
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18.5 数据 变现 的 场景 


最 后 来 说 说 数据 变现 的 问题 。 

我 们 的 信息 本 身 就 是 一 种 财产 ， 我 们 的 手机 号 、 年 龄 、 身 份 证 号 、 职 业 、 年 收入 水 平 、 
购房 与 否 、 购 车 与 否 、 婚 否 、 育 否 …… 这 些 信 息 已 经 很 丰富 了 。 这 些 信息 已 经 能 够 让 那些 
商家 愿意 花 一 大 笔 钱 来 购买 ， 然 后 按 图 索 双 ， 找 到 “高 需求 用 户 ”， 推 销 各 种 “高 需求 产 
品 ”。 这 些 商家 自然 是 获得 了 好 处 ， 但 是 人 们 的 隐私 却 被 冒犯 了 。 原 因 无 非 是 某 些 机 构 在 登 
记 了 人 们 的 信息 以 后 转手 卖 给 了 这 些 商 家 ， 这 是 一 种 表现 最 为 赤裸 的 数据 变现 。 

想 想 看 ， 商 家 买 这 些 数 据 的 目的 是 什么 呢 ? 应 该 是 为 了 帮助 他 改进 业务 。 为 什么 能 够 
帮助 他 改进 业务 呢 ? 因 为 他 一 旦 有 了 这 些 数据 就 能 不 需要 大 海 捞 针 式 地 青 去 逐个 给 所 有 和 手 
机 号 打 电 话 了 ， 节 约 时 间 ， 节 约 人 力 成 本 ， 这 才 是 他 愿意 为 这 些 数据 买单 的 最 根本 的 原因 。 
有 些 数 据 你 可 能 白 给 他 他 都 没 兴 趣 ， 因 为 拿 着 没 用 ， 不 能 赚钱 也 不 能 省 钱 。 

我 们 把 例子 举 透 彻 一 些 吧 。 

如 果 这 种 骚扰 电话 使 用 大 海 捞 针 的 方式 ， 假 设 需要 打 10 000 通才 能 成 交 1 笔 ， 被 加 
9 999 次 。 那 么 在 获取 了 这 份 名 单 之 后 ， 也 许 只 需要 拨打 1 000 通 就 能 成 交 1 笔 ， 被 驾 999 
次 ， 产 能 提高 90%。 如 果 加 之 有 人 预先 对 用 户 做 过 画像 ， 进 一 步 进行 了 转化 率 的 优化 得 查 ， 
也 许 只 需要 拨打 100 通 就 能 成 交 1 笔 ， 被 器 99 次 。 同 样 是 成 交 1 笔 ， 产 能 提高 了 99%。 换 
而 言 之 ， 假 设 原来 要 雇佣 100 个 人 来 打 这 10 000 通电 话 ， 现 在 只 需要 雇用 1 个 人 就 够 了 。 
那 99 个 人 就 是 节约 下 来 的 人 力 ， 就 是 用 蒸汽 机 驱动 的 纺 纱 机 代替 纺织 女工 的 过 程 。 


18.5.1 数据 价值 的 衡量 的 讨论 


1. 交换 价值 

前 面 反复 提 到 ， 大 数据 产业 的 价值 在 于 “洞悉 世界 ”一 一 消除 不 确定 ， 变 不 定 为 肯定 。 
在 这 个 消除 不 确定 的 过 程 中 ， 大 数据 解放 了 大 量 的 生产 力 ， 这 是 大 数据 产业 从 经 济 学 和 社 
会 学 层面 体现 出 来 的 意义 。 

说 到 这 里 ， 可 以 考虑 尝试 着 用 公式 性 的 方式 描述 一 下 数据 的 价值 。 

在 《资本 论 》 里 有 这 样 的 论述 ， 马 克 思 说 :“ 作 为 价值 ， 一 切 商 品 都 只 是 一 定量 的 凝固 
的 劳动 时 间 。” 随 着 市 场 经 济 的 逐步 繁荣 ,《 资 本 论 》 的 论述 或 许 会 有 些 单纯 ， 或 者 有 一 定 
的 局 限 性 。 那 么 就 按照 市 场 经 济 的 观点 来 做 一 个 调整 性 的 解释 商品 真实 的 成 交 价 是 一 
个 更 容易 被 人 认可 的 价值 体现 。 

数据 如 果 要 变现 ， 自 然 有 成 交 价 ， 这 个 成 交 价 就 是 数据 自身 的 “交换 价值 ” 。 还 是 用 
《资本 论 》 里 熟悉 的 名 词 来 类 比 。 一 个 人 为 了 了 解 和 消除 不 确定 性 购买 数据 ， 而 为 此 付出 
金钱 代价 ， 这 个 成 交 价 就 是 它 的 交换 价值 。 即 便 数据 一 样 ， 成 交 价 也 可 能 因 人 而 异 ， 这 就 
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ww ai bbt. com 0DDOOOOOD 


304 ?白话 大 数据 与 机 器 学 习 


像 平时 在 市 场 上 看 到 的 现象 那样 ， 一 样 的 工业 品 ， 如 键盘 、 鼠 标 、U 盘 这 些 最 常见 的 东西 ， 
即便 是 完全 没有 差异 的 鼠标 ， 也 会 由 于 当时 的 供需 造成 价格 的 波动 ， 那 这 个 时 刻 的 交换 价 
值 实际 也 是 在 波动 的 ， 这 种 现象 同样 存在 于 数据 交易 中 。 

2. 作用 价值 

数据 的 获取 为 人 们 消除 不 确定 性 。 那 么 通过 其 他 途径 消除 这 种 不 确定 性 的 成 本 就 是 数 
据 为 人 们 替代 下 来 的 ， 就 是 数据 发 挥 的 作用 ， 所 以 “通过 其 他 途径 消除 这 种 不 确定 性 的 成 
本 ”应 该 被 称 为 这 片 数据 的 作用 价值 一 一 这 更 像 是 一 种 成 本 估算 。 如 果 没 有 数据 会 怎么 样 ? 
自己 亲自 去 做 访谈 了 解 ， 听 新 闻 ， 查 看 各 种 其 他 方面 的 资料 ， 这 是 要 消耗 大 量 成 本 的 。 但 
是 ， 即 便 在 没有 任何 途径 消除 这 种 不 确定 性 的 时 候 ， 作 用 价值 应 该 也 不 会 无 穷 大 ， 因 为 根 
据 自己 经 验 、 推 测 等 手段 ， 还 是 会 对 这 个 待 了 解 的 数据 的 “页 实 值 有 一 个 “ 通 近 ”的 过 程 。 
所 以 作用 价值 几乎 永远 是 一 个 有 限 值 。 

3. 使 用 价值 

而 用 什么 来 类 比 数据 的 “使 用 价值 ” 呢 ? 可 以 用 获取 了 这 些 数据 后 所 消除 的 不 确定 性 
的 大 小 来 衡量 ， 也 就 是 用 数据 的 信息 焙 来 衡量 。 使 用 价值 永远 是 小 于 等 于 作用 价值 的 。 

4. 场景 价值 

而 到 了 这 一 步 ， 还 需要 有 一 种 概念 出 现 ， 就 是 “场景 价值 ”一 一 在 相同 的 信息 灼 情 
况 下 ， 在 不 同 场景 里 数据 的 “场景 价值 ”是 不 同 的 ; 甚至 完全 相同 的 数据 在 不 同 的 场景 下 
也 是 有 不 同 的 “场景 价值 ”的 。 这 个 场景 价值 应 该 是 信息 在 场景 中 带 来 的 收益 ， 这 个 收益 
就 是 两 种 状态 的 成 本 差异 ， 就 拿 刚 才 的 那个 骚扰 电话 的 场景 来 看 ， 买 一 个 普通 的 画像 清单 ， 
能 够 减少 90% 的 人 工 投 入 ,那么 减 去 的 90% 的 人 工 成 本 用 具体 金钱 衡量 出 来 的 数字 就 是 场 
景 价值 ; 买 一 个 优化 过 的 画像 清单 ， 能 够 减少 99% 的 人 工 投入 ， 那 么 减 去 的 9996 的 人 工 成 
本 用 具体 金钱 衡量 出 来 的 数字 就 是 场景 价值 。 

可 以 认为 : 如 果 要 让 数据 交易 成 为 一 个 产业 ， 必 须 使 得 : 

场景 价值 >> 作 用 价值 > 使 用 价值 > 交换 价值 

如 果 数 据 的 场景 价值 大 于 交换 价值 ， 数 据 的 买卖 就 会 成 交 ， 这 个 价值 之 差 越 大 成 交 的 
可 能 性 越 大 ， 而 这 类 数据 就 具有 升值 空间 。 

日 常 其 他 商品 交易 的 场景 里 也 有 类 似 的 场景 ,一 个 地 方 的 房价 现在 是 5 000 元 一 平方 
米 ， 周 边 相 对 还 比较 荒凉 ， 去 购物 ， 去 看 病 ， 去 上 学 ， 在 这 里 生活 附加 的 成 本 尤其 是 时 间 
成 本 还 相当 高 ， 所 以 这 个 5 000 元 一 平方 米 基本 只 有 一 个 居住 价值 。 但 是 根据 规划 ， 以 后 
5 年 这 里 周边 会 陆续 新 建 地 铁 、 购 物 中 心 、 中 小 学 校 、 三 甲 医院 。 这 些 附加 的 成 本 会 随 着 这 
些 设施 的 建立 逐渐 降低 ， 而 转移 到 楼 盘 的 价格 上 去 ， 这 个 价格 会 一 直上 涨 ， 上 涨 的 上 限 应 
该 是 与 其 他 地 方 楼 盘 提 供 的 同 质 资源 附加 价值 总 和 持平 一 一 包括 居住 价值 在 内 的 一 切 相关 
资源 。 这 时 候 楼 盘 再 上 涨 已 经 没有 意义 ， 即 便 喊 价 上 涨 , 但 是 买 家 已 经 能 够 在 其 他 比 这 个 
地 方 低 价 的 地 区 花 更 少 的 钱 买 到 同 质 的 资源 ， 那 这 个 喊 价 十 有 八 九 不 成 交 ， 就 是 所 谓 的 有 
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价 无 市 ， 

数据 的 场景 价值 也 是 这 样 ， 由 于 数据 里 蕴含 的 信息 对 场景 中 消除 不 确定 性 有 帮助 ， 进 
而 带 来 的 收益 就 是 数据 的 价值 ， 屠 就 相当 于 是 一 种 投资 。 投 资 回 报 高 就 会 吸引 人 ， 反 之 回 
报 低 就 不 吸引 人 。 这 个 回报 是 数据 中 的 信息 带 来 的 收益 的 价值 ， 也 就 是 回报 和 交换 价值 的 
差 值 ， 这 个 差 值 越 大 就 说 明 投资 收益 率 越 高 ， 越 吸引 人 ， 反 之 就 越 小 ， 越 容易 被 资本 抛弃 。 

5. 示例 分 析 

刚才 有 一 个 问题 没 说 完 ， 就 是 关于 “使 用 价值 ”的 问题 。 这 应 该 是 一 个 数据 中 于 全 
息 所 发 挥 价值 的 度量 问题 。 

在 平时 生产 生活 中 。 人 们 的 行为 实际 是 已 经 计 人 了 先 验 概 率 的 。 而 使 用 数据 中 的 信息 
这 种 行为 ， 实 际 是 在 享受 其 信息 量 获得 的 增益 。 在 乎 时 的 生产 生活 中 ， 即 便 在 没有 购买 任 
何 数据 的 情况 下 ， 也 会 根据 当前 具有 的 认 知 、 经 验 、 推 理 、 猜 测 ， 使 用 所 有 能 用 的 手段 来 
消灭 不 确定 性 。 这 个 时 候 必然 不 是 像 无 类 苍蝇 一 样 盲目 去 试 ， 穷 举 地 去 试 ， 在 前 面 说 的 又 
护 电 话 的 例子 里 就 是 一 个 电话 号 码 不 落地 逐个 打 过 去 的 情况 。 而 根据 很 多 辅助 性 的 信息 或 
者 其 他 的 数据 信息 已 经 能 够 在 购买 或 阅读 一 片 数 据 之 前 拥有 了 一 定 的 消除 不 确定 性 的 能 力 ， 
这 个 其 实 就 是 先 验 概率 发 挥 的 作用 。 而 在 购买 或 阅读 了 数据 之 后 ， 进 一 步 消除 了 不 确定 性 ， 
这 其 实 是 一 个 和 概率 有 关 的 事情 ， 很 容易 联想 到 信息 量 或 精 的 概念 ， 


H(x) 2 M, p(x,)log, P(x,) (i1, 2, =n) 





ui 











在 计算 使 用 价值 时 可 以 考虑 用 以 下 公式 : 
H(x)- Ae B(x og P(x (P1, 2, en) 


其 中 m 是 信 源 数量 。 

在 m 个 信 源 是 等 概率 的 情况 下 ，H(x) 的 最 大 值 为 1， 也 就 是 100%。 可 以 认为 这 种 情况 
下 数据 的 使 用 发 挥 了 巨大 的 价值 ; 前面 同样 也 计算 过 炉 在 先 验 概率 分 布 极 不 平衡 时 是 比较 
小 的 。 信 息 烂 在 这 种 情况 下 取 值 在 0 ~ 1 之 间 。 

不 妨 把 数据 使 用 价值 定义 为 

使 用 价值 = (作用 价值 - 交换 价值 ) x 信息 炳 

从 定性 分 析 的 角度 来 看 ， 作 用 价值 越 大 ， 交 换 价值 越 小 ， 那 么 数据 使 用 价值 就 越 大 ; 
而 在 信息 信 越 大 的 情况 下 ， 这 个 数据 的 使 用 价值 越 不 打折 扣 ， 反 之 数据 的 使 用 价值 就 比较 
小 。 如 果 作 用 价值 和 交换 价值 很 贴近 ， 那 数据 使 用 价值 的 空间 就 非常 有 限 了 ， 这 种 时 候 
即便 信息 炉 是 1 (最 大 值 )， 这 种 数据 发 挥 的 作用 也 就 越 小 ， 因 为 与 穷 举 试 错 的 成 本 快 差 不 
£f. 

例如 ， 张 三 准备 在 一 个 城市 开 一 个 小 卖 店 ， 但 是 卖 什么 没 拿 准 。 他 在 多 方 了 解 下 ， 想 
了 以 下 4 种 方案 。 

方案 1: 在 A 街区 B 店面 开 一 个 煎饼 店 。 
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方案 2: 在 C 街 区 DD 店面 开 一 个 茶 餐 厅 。 

方案 3: dE C fX D 店面 开 一 个 便利 店 。 

方案 4: 开 一 个 专营 咖啡 机 和 咖啡 豆 的 网 店 。 

这 4 种 方案 看 起 来 几乎 差不多 ,, 如 果 自 己 要 去 各 个 街区 进行 调查 ,包括 网 络 调查 人 流 
量 、 客 户 性 别 比例 、 年 龄 比例 、 日 均 消 费 等 数据 ， 一 个 人 花费 的 人 工 成 本 、 交 通 、 饮 食 都 
加 在 一 起 需要 40 000 元 。 而 有 专业 的 公司 拥有 大 数据 咨询 报告 系统 ， 可 以 提供 完备 的 信 
息 ， 而 购买 这 种 报告 仅 需 5000 元 一 份 。 那 么 张 三 完 全 可 以 花 5000 元 来 购买 这 份 报告 ， 这 
个 5000 元 就 是 交换 价值 ，40 000 元 就 是 作用 价值 。 这 4 个 方案 如 果 没 有 明显 的 彼此 之 间 的 
差异 ， 张 三 原本 选择 每 个 方案 的 概率 都 是 一 ， 那 么 按照 前 面 的 说 法 来 计算 ,信息 信 就 是 


l 1 1 1 1 1 1 1 
H(x)= ->》 p(x)log, P(x)- (-i)es. ees e) jos zl 


数据 的 使 用 价值 就 是 : (40 000—5000) x 1-35 000 元 。 

再 举 一 个 例子 。 

假如 有 这 么 一 个 场景 ， 某 公司 制定 第 二 年 的 产品 策略 和 销售 计划 ， 随 后 几 个 主管 提出 
了 3 种 不 同 的 方案 。 而 且 3 种 方案 听 起 来 都 比较 有 道理 但 是 缺乏 足够 的 数据 依据 ， 经 过 大 
家 充分 讨论 ， 权 衡 利 次， 在 决策 层 的 领导 内 进行 了 支持 表决 。 同 意 选 择 方案 1 的 有 70% 的 
人 ， 同 意 选 择 方案 2 的 有 20% 的 人 ， 同 意 选择 方案 3 的 有 1096 的 人 。 可 以 粗略 理解 : 其 中 
有 70% 的 人 可 能 会 选择 方案 1，20% 的 人 可 能 会 选择 方案 2，10% 的 人 可 能 会 选择 方案 3。 
这 时 候 需 要 数据 对 决策 做 出 支持 。 假 设 自己 进行 调查 研究 需要 花费 的 总 成 本 为 100 万 ， 从 
拥有 大 数据 咨询 报告 系统 的 公司 购买 了 相应 的 数据 ， 花 费 20 万 ， 做 出 了 最 终 决策 ， 选 择 了 
方案 3。 最 终 公司 第 二 年 销售 收益 为 1 000 万 。 

在 这 个 例子 里 面 ，20 万 为 交换 价值 ， 作 用 价值 应 该 是 100 万 ,场景 价值 是 80 万 ， 数 据 
的 价值 边界 应 该 划 在 消除 信息 不 确定 的 成 本 上 ， 而 不 是 间接 收益 。 另 外 ， 可 能 比较 有 争议 
的 地 方 是 在 选择 了 支持 度 最 低 的 方案 3 上 ， 表面 上 看 上 去 ， 数 据 的 购 入 支持 了 最 不 可 能 胜 
出 的 方案 3， 所 以 这 次 胜出 很 大 程度 应 该 归功 于 这 一 片 数据 的 价值 ， 应 该 用 这 个 1 000 万 做 
基数 来 进行 衡量 。 我 的 看 法 是 ， 这 是 对 数据 价值 的 夸大 ， 也 是 不 客观 的 一 种 表现 。 因 为 这 1 
000 万 真 的 不 是 因为 花 了 20 万 就 直接 得 到 的 ， 而 实际 的 过 程 是 ， 仅 仅 花 了 20 万， 完成 了 一 
个 100 万 的 成 本 才能 做 的 事情 ， 在 决策 后 进而 通过 一 系列 其 他 的 努力 和 配合 ， 最 终 达 成 了 
1 000 万 的 价值 。 边 界 的 划分 很 重要 。 或 许 还 有 一 个 疑问 ， 就 是 3 种 方案 中 ， 数 据 的 帮助 使 
得 这 个 10% 支持 度 的 方案 胜出 ， 而 非 最 大 支持 度 的 7096 的 方案 胜出 ， 所 以 有 两 种 情况 可 能 
会 被 认为 是 不 同 的 ， 那 就 是 用 户 选 择 了 70% 支持 度 的 方案 1 和 10% 支持 度 的 方案 3， 这 两 
种 情况 下 数据 的 使 用 价值 肯定 是 不 一 样 的 。 但 是 ,决策 实际 上 是 在 了 解 了 信息 之 后 做 出 的 ， 
换 句 话说 ， 如 果真 的 花 了 100 万 的 人 工 成 本 去 做 了 这 次 同 质 的 分 析 ， 应 该 会 得 到 跟 购 买 这 
次 数据 一 样 的 结果 ， 买 数据 花 了 20 万 。 这 里 数据 的 价值 只 是 两 种 获得 途径 的 比较 ， 也 就 是 
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大 数据 市 场 边 界 的 划分 。 

最 后 试 着 把 事情 做 到 极致 一 一 试 算 一 下 在 刚才 的 骚扰 电话 的 例子 里 ， 从 10 000 条 数据 
中 锁定 100 条 数据 ， 带 来 的 交换 价值 有 多 大 呢 ? 这 个 场景 很 特殊 ， 因 为 打 这 10 000 通电 话 
本 身 就 是 一 个 消除 不 确定 性 的 过 程 ， 等 于 是 消除 不 确定 性 和 生产 融 为 一 体 的 ， 在 这 种 情况 
下 ,数据 的 场景 价值 和 作用 价值 几乎 快 等 价 了 。 

假设 平均 一 次 通话 时 间 需 要 3 分 钟 ， 包 括 接听、 通话、 挂机， 包括 成 交 和 被 加 的 不 同 
场景 。 那 么 一 小 时 可 以 通话 20 通 ， 一 天 8 小 时 通话 160 通 。10 000 通电 话 需 要 一 个 人 62.5 
个 工作 日 才能 完成 ,大约 3 个 人 1 个 月 的 时 间 。 假 设 话务员 的 人 工 成 本 为 4 000 元 一 个 月 ， 
那 就 需要 12 000 元 的 成 本 ， 这 个 就 是 作用 价值 。 用 网 上 找到 的 一 条 报道 来 试 着 给 数据 定 个 
售 价 , “信用 卡 客户 信息 遭 泄 : 网 购 价 2 分 一 条 ， 金 卡 持 卡 人 信息 可 和 售 5 元 。 多 位 “信息 贩 
子 ， 均 表示 ,根据 个 人 信息 “品质 ”的 不 同 ， 价 格 也 分 为 “三 六 九 等 "， 最 新 信用 卡 开户 数 
据 按 照 0.5 元 一 条 出 售 ; 二 手数 据 可 以 便宜 到 0.35 元 每 条 ; 部 分 高 端 客 户 如 金 卡 、 白 金 卡 
持 卡 人 信息 每 条 售 价 则 高 达 5 元 ?。” 假 设 1 条 0.5 元 ,在 花费 了 50 元 购买 了 100 条 电话 记 
录 后 ， 仅 需要 1 个 人 0.6 天 的 时 间 ， 也 就 是 大 约 190 元 的 成 本 ， 就 能 完成 原来 12 000 元 成 
本 才能 做 完 的 事情 。 由 于 这 种 场景 下 的 作用 价值 巨大 ， 使 用 价值 和 场景 价值 都 巨大 ， 所 以 
在 这 个 场景 下 数据 交易 才 会 大 行 其 道 ， 屡 禁 不 止 。 

除了 这 些 未 来 会 很 有 市 场 的 例子 外 ,， 还 有 哪些 是 现 阶 段 就 可 以 开始 发 挥 价值 的 数 
据 呢 ? 


18.5.2 ”场景 1: 征 信 数 据 

征 信 数据 这 个 东西 其 实 还 是 很 敏感 的 ， 很 多 人 认为 这 个 是 隐私 。 

隐私 应 该 说 是 一 种 文明 进步 的 产物 ， 但 是 也 确实 是 一 把 及 其 锋利 的 双 刃 剑 。 先 看 这 样 
一 则 报道 。 

“上 日 前 ， 稀 里 糊涂 娄 上 了 艾滋 病 的 河南 小 伙 小 新 成 了 与 论 关注 的 焦点 。 去 年 3 月 ， 他 和 
女友 小 叶 筹 备 婚事 ， 两 人 在 民政 局 办 理 婚姻 登记 当天 ， 前 往 永 城市 妇幼 保健 院 进行 婚检 。 
检查 报告 很 快 出 来 了 ， 但 医生 单独 叫 住 了 女友 小 时。 小 叶 再 次 做 完了 检查 后 ， 小 新 得 到 医 
生 的 答复 是 ， 一 切 正 常 。 婚 检 后 小 新 也 没 再 多 想 什 么 ， 就 与 妻子 小 叶 同 了 房 。 一 个 月 后 ， 
小 新 前 往外 地 打工 ， 然 而 6 月初 ， 小 叶 接 到 永 城市 疾 控 中 心 打 来 的 电话 ， 称 她 已 经 确诊 为 
HIV 阳性 。 丈 夫 小 新 这 才 知 道 ， 当 时 小 叶 被 医生 叫 住 是 因为 被 查 出 疑似 HIV 阳性 。 不 幸 的 
是 ， 小 新 随后 也 被 查 出 感染 了 艾滋 病毒 。 

令 小 新 不 解 的 是 ，3 月 份 婚检 时 ， 小 叶 已 经 查 出 疑似 感染 艾滋 病毒 ， 为 什么 医院 当时 不 
把 这 个 结果 告知 自己 ， 导 致 砷 剧 无 法 挽回 ? 在 痛苦 中 挣扎 了 一 段 时 间 后 ， 小 新 从 法 院 拿 到 
一 份 当 初 婚检 时 的 检验 报告 ， 并 向 法 院 提 起 了 诉讼 ， 要 求 进行 婚检 的 妇幼 保健 院 承 担 责任 。 


O 来 源 于 《每 日 经 济 新 闻 》。 
ww ai bbt. com [1 D DLE U U UI 


308 4» 白话 大 数据 与 机 器 学 习 


事件 成 为 与 论 焦 点 后 ， 永 城市 妇幼 保健 院 承 受 了 不 小 的 压力 ， 许 多 人 都 认为 妇幼 保健 
院 向 小 新 隐瞒 了 妻子 感染 艾滋 病毒 的 情况 才 导 致 了 悲剧 的 发 生 。 而 妇幼 保健 院 对 此 的 解释 
是 ， 按 照 我 国有 关 法 律 ， 医 疗 机 构 及 其 医务 人 员 应 当 对 患者 的 隐私 保密 。 婚 检 机 构 认 为 ， 
自己 只 有 权利 告诉 检查 者 小 叶 本 人 ， 向 小 新 坦白 应 该 是 小 叶 自 己 的 责任 93。 

这 则 报道 的 场景 和 征 信 几乎 是 完全 一 样 。 一 方 是 一 个 人 的 隐私 ， 另 一 方 是 对 他 人 产生 
危害 的 可 能 性 。 这 两 者 确实 应 该 加 以 权衡 ， 而 不 能 一 股 脑 地 规定 要 彻底 保护 一 切 隐 私 ， 或 
者 说 所 有 的 隐私 必须 完全 公开 。 

征 信 问题 是 人 类 文明 城市 化 到 了 一 定 程度 必然 引发 的 问题 ， 这 种 问题 在 祖祖辈辈 一 直 
居住 的 农村 几乎 是 没有 悬念 的 。 一 个 人 家 境 如 何 ， 品 行 如 何 ， 在 一 个 居住 了 几 十 年 的 只 有 
一 千 多 口 人 甚至 更 少 的 小 山村 里 那 几 乎 是 尽 人 皆 知 ， 在 这 样 一 个 小 的 社会 环境 里 ， 人 和 人 
之 间 的 距离 非常 近 。 早 上 发 生 的 事情 ， 可 能 中 午 就 传 得 全 村 人 都 知道 ， 彼 此 了 解 的 程度 如 
此 之 深 ， 那 所 有 小 范围 内 的 风险 问题 都 能 自行 解决 了 一 一 不 确定 程度 很 低 。 

但 是 城市 截然 不 同 ， 大 家 来 自 天 南海 北 五 湖 四 海 ， 有 很 多 人 在 高 楼 大 厦 里 住 了 大 半 辈 
子 可 能 一 个 单元 的 人 都 认 不 全 。 那 么 对 于 整个 社会 里 的 更 为 复杂 的 协作 关系 如 何 协调 ?这 
种 新 社会 体系 下 的 关系 自然 需要 把 征 信 数据 进行 合法 化 管理 ， 让 人 们 把 它 当 成 自己 的 终生 
名 片 来 珍视 和 爱护 。 这 种 征 信 是 城市 人 之 间 协 作 的 保障 ， 它 的 变现 是 人 们 为 了 付出 一 些 金 
钱 成 本 去 消除 人 信誉 的 不 确定 性 的 一 种 变现 方式 。 








18.5.8 355 2: 宏观 数据 

宏观 数据 比较 简单 ， 就 是 指 统计 性 的 数据 。 如 一 个 地 区 有 和 多少 艾滋 病人 ， 是 100 还 是 
50， 这 些 数据 对 于 很 多 做 社会 学 和 病理 学 人 研究 的 人 是 有 意义 和 有 价值 的 。 况 上 且 这 只 是 一 个 
数字 ,没有 说 谁 具体 得 了 这 种 病 ， 也 就 不 涉及 隐私 ， 当 然 可 以 进行 交易 。 

其 他 一 切 的 宏观 统计 数据 理论 上 说 都 是 可 以 进行 交易 的 ， 前 提 必 须 得 到 它 的 拥有 人 的 
授权 。 这 也 好 理解 ,虽然 卖 汽车 是 合法 的 ,但 是 总 不 能 把 别人 家 的 汽车 随便 开 来 卖 掉 吧 。 

宏观 数据 的 价值 到 此 为 止 吗 ” 远 不 止 。 

在 互联 网 飓风 席卷 整个 世界 的 时 候 ， 什 么 是 生存 的 最 终 能 力 一 一 创新 。 创 新 说 白 了 就 
是 大 量 的 个 体 去 试 ， 大 量 的 试 错 中 有 个 别 试 对 的 活 下 来 ， 这 个 就 是 成 功 的 创新 。 以 新 产品 
市 场 研究 为 例 。 新 产品 市 场 研究 靠 什么 ”当然 是 数据 。 作 为 一 个 产品 经 理 ， 或 者 一 个 对 产 
品 负 责任 的 人 ， 需 要 对 未 来 出 品 的 产品 做 一 个 评估 。 产 品 准备 卖 给 谁 ? 卖 多 少 ? 在 什么 地 
KE? 借助 什么 渠道 卖 ? 毛利 大 概 多 少 ? 产品 的 预期 生存 周期 是 多 少 ? 有 办 法 消除 这 些 疑 
问 的 不 确定 性 吗 ? 还 是 闭 着 眼 去 试 ? 

举 一 个 例子 。 如 果 想 开 一 个 店 。 会 在 哪里 选 址 ? 会 卖 什么 ? 怎么 来 做 BP (Business 
Plan， 商 业 计划 )。 需 要 了 解 的 信息 包括 各 街区 的 人 流量 信息 ; 在 某 一 街区 人 流 信息 中 的 年 


O 来 源 于 《北京 娱乐 信 报 》。 
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龄 段 比 例 ; 这 些 人 在 这 些 街区 购买 对 应 产品 的 平均 预算 ; 这 些 人 是 喜欢 一 个 人 来 还 是 结伴 
而 来 ; 在 哪些 时 间 段 人 流量 会 比较 大 ， 大 到 什么 程度 。 

这 些 信 息 会 帮助 把 这 个 BP 充实 起 来 ， 当 对 这 些 信息 有 了 比较 充分 的 了 解 后 可 以 更 容易 
去 做 决定 。 

如 果 街 区 的 人 流量 本 身 就 不 足 ， 甚 至 大 部 分 都 是 匆匆 的 过 客 ， 那 可 能 开店 本 身 都 成 为 
困难 了 。 

这 个 地 区 的 过 客 都 是 些 什么 人 ， 是 一 些 上 下 学 回 家 的 小 朋友 ， 年 轻 的 上 班 族 还 是 广场 
舞 大 妈 们 ? 这 会 帮助 选择 ， 是 卖 甜 甜 圈 、 奶 茶 还 是 商务 人 士 喜欢 的 咖啡 、 Lan 还 是 适 
合 本 地 人 口味 的 煎饼 、 早 茶 。 

他 们 每 天 的 预算 决定 了 卖 的 单 品 的 单价 ， 是 应 该 高 档次 高 规格 ， 还 是 应 该 更 贴近 大 众 
更 实惠 。 

一 个 人 来 还 是 结伴 来 是 不 一 样 的 ， 尤 其 是 结伴 来 的 人 是 商务 关系 、 情 侣 关系 ， 还 是 男 
Tp? 这 决定 了 出 售 的 单 品 在 差异 化 上 应 该 迎合 哪些 人 的 习惯 。 是 应 该 精致 、 浪 漫 ， 还 
是 搞怪 猎奇 。 

时 间 段 对 于 人 流 的 影响 也 间接 影响 到 人 力 成 本 ， 是 一 个 人 能 搞定 这 个 事情 ， 还 是 要 两 
个 人 全 职 ， 还 是 在 高 峰 段 雇 一 个 勤工俭学 的 学 生 帮 忙 打 理 。 这 也 是 影响 预算 的 重要 因素 。 

这 些 数据 完全 不 用 担心 没有 人 卖 ， 只 要 有 需求 ， 就 会 有 人 考虑 卖 ; 只 要 这 种 数据 对 消 
除 不 确定 性 有 帮助 ， 那 就 会 有 市 场 ; 只 要 数据 的 提供 还 有 利 可 图 ， 那 就 会 吸引 更 多 的 人 继 
续 加 入 数据 的 生产 与 提供 。 

刚刚 这 些 数据 ， 如 果 用 3 000 元 能 买 到 ， 会 考虑 购买 吗 ? 可 以 选择 花 3 000 元 买 下 它 ， 
然后 认真 阅读 和 研究 ; 也 可 以 选择 花 20 万 元 把 店 先 开 起 来 ， 开 的 过 程 中 再 摸索 。 究 竟 哪 一 
种 更 划算 ， 仁 者 见 仁 智 者 见 智 。 

还 有 一 些 数据 ， 它 的 宏观 价值 会 更 容易 直接 被 人 看 到 。 例 ， 某 地 区 的 某 种 疾病 的 意外 
事故 、 发 病 率 、 分 布 年 龄 段 、 治 愈 率 等 。 这 些 宏观 统计 信息 不 涉及 任何 个 人 隐私 内 容 ， 有 
价值 吗 ?” A! 谁 会 对 这 些 数据 感 兴趣 ? 至 少 有 两 种 行业 会 对 这 种 数据 感 兴趣 。 一 个 是 保险 
行业 ， 一 个 是 制药 行业 。 保 险 公 司 购买 这 样 的 数据 用 来 设计 和 调整 险种 ， 制 药 厂 购 买 这 些 
数据 用 来 研究 一 些 细 分 类 的 药品 。 这 些 信息 能 够 极 大 地 消除 不 确定 性 带 来 的 成 本 并 提高 产 
品 设计 的 针对 性 。 


18.5.4 场景 3: 画像 数据 

画像 数据 在 前 面 的 章节 中 多 次 提 到 。 画 像 数据 指 的 就 是 一 个 人 、 一 个 终端 或 者 任何 一 
个 物体 的 表述 标签 信息 。 这 些 标 签 信息 ， 尤 其 是 针对 人 的 画像 ， 虽然 包含 了 大 量 的 人 的 隐 
私 或 者 关键 性 的 描述 信息 ， 但 是 只 要 把 握 一 点 ， 这 些 数据 里 面 不 要 轻易 定位 到 人 。 只 要 不 
定位 到 人 ， 那 么 这 些 画 像 信息 再 如 何 丰富 也 不 能 算 作 是 侵犯 隐私 。 这 一 点 很 重要 ， 这 已 经 
给 了 人 们 变现 的 空间 。 
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如 通过 一 个 MAC 地 址 ， 可 以 请 求 到 一 些 兴趣 相关 的 标签 。 这 个 显然 与 个 人 隐私 没 什 
么 关系 。 通 过 一 个 人 的 手机 号 ， 能 够 请 求 到 一 些 关 于 他 通话 时 长 或 者 网 络 流量 大 小 的 数据 。 
这 个 算 隐 私 吗 ? 只 要 这 不 是 那 种 他 不 想 让 别人 知道 的 数据 ， 就 不 能 算 隐私 。 所 以 数据 的 开 
放 和 拥有 者 的 授权 体系 应 该 是 大 数据 交易 和 变现 的 制度 性 和 技术 性 保障 根源 。 


18.6 小结 


数据 的 价值 是 一 种 不 会 枯竭 的 资源 ， 它 不 断 产生 ， 不 断 被 人 挖掘 ， 不 会 轻易 到 达 生 产 
量 的 上 限 ， 它 能 够 解放 生产 力 ， 从 这 个 角度 来 说 ， 它 就 像 第 一 次 工业 革命 时 候 的 蒸汽 机 ， 
第 二 次 工业 革命 时 候 的 电力 一 样 有 能 量 。 
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附录 A TA Feri ul C 


VMware Workstation 的 安装 


A.1 VMware 简介 


VMware 是 由 VMware 公司 (VMware, Inc.) 开发 ， 业 内 非常 著名 的 虚拟 化 软件 。 它 使 
用 简单 ， 基 于 图 形 化 管理 ， 而 且 效 率 非常 高 。 

它 为 用 户 提 供 了 多 个 版 本 ， 包括: VMware 工作 站 (VMware Workstation), VMware HK 
务 器 (VMware Server), VMware ESX 服务 器 (VMware ESX Server)， 以 及 云端 版 本 等 。 

这 里 主要 为 读者 提供 VMware 的 桌面 级 产品 VMware 工作 站 版 本 ， 读 者 可 以 亲自 动手 
实践 ， 在 不 破坏 Windows 工作 环境 下 ， 体 验 Linux 操作 系统 的 使 用 和 在 Linux 操作 系统 环 
境 下 使 用 大 数据 热门 的 软件 。 


A.2 安装 前 的 准备 工作 


1. 硬件 配置 需求 
在 安装 软件 之 前 用 户 需 要 准备 足够 的 磁盘 空间 和 运行 时 所 占用 的 内 存 ， 为 了 保证 大 数 
据 软 件 流畅 运行 ， 至 少 保证 如 下 硬件 配置 。 
D CPU: Intel Core 13。 i 
Q 内 存 : 4.00 GB. 
口 硬盘 空间 : 30GB. 


2. VMware 下 载 方法 
可 以 从 VMware 软件 的 官方 网 站 下 载 最 新 版 本 的 VMware。 最 新 版 本 为 VMware 
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Workstation 12， 下 载 地 址 如 下 : http:/www.vmware.com/products/workstation/workstation- 


evaluation; 


如 果 读 者 使 用 的 是 Windows 操作 系统 ， 可 以 单 击 Download Now 按钮 进行 下 载 ， 网 页 
内 容 如 图 A-1 所 示 。 . 








图 A-1 下 载 页 面 
VMware Workstation 为 商业 软件 ， 用 户 可 以 免费 试用 30 Ro 


3. 安装 过 程 
下 载 完 成 后 ， 正 式 进 入 安装 环节 ， 首 先 运行 软件 ， 进 入 友好 的 安装 向 导 界 面 ， 如 图 A-2 


所 示 。 
下 一 步 , 来 到 “最 终 用 户 许可 协议 ”界面 ， 同 意 后 进入 下 一 步 ， 如 图 A-3 所 示 。 













BARPR3b 
欢迎 使 用 VMware Workstation Pro 安装 向 导 请 认真 阅读 以 下 许可 协议 






VMWARE 最 终 用 户 许可 协议 


请 注 章 ， 在 本 软件 的 安装 过 程 中 无 论 可 能 会 出 现任 何 条 款 ， 
使 用 本 软件 都 将 受 此 最 终 用 户 许可 协议 各 条 款 的 约束 。 


要 信息 ， SEO P 您 一 旦 下 载 、 安 装 或 使 用 本 软件 ， 


WORKSTATION. E HULLE VMware Workstation Pro 
: f Se 















x VMware 产品 受 下 


fein ita 1998- iat n inc. ARATRI 本 产品 


ber riu 











图 A-2 ”安装 向 导 界 面 图 A-3 “最 终 用户 许 可 协议 ”界面 


继续 选择 安装 位 置 ， 这 里 选择 了 默认 安装 位 置 ， 读 者 可 以 根据 实际 情况 单 击 “更 改 ” 
按钮 选择 磁盘 空间 较 大 的 分 区 ,继续 单 击 “ 下 一 步 ” 按 钮 ， 如 图 A-4 所 示 。 
进入 准备 安装 界面 ， 单 击 “ 安 装 ” 按 钮 后 开始 进行 VMware 的 安装 ， 如 图 A-5 所 示 。 
当 安 装 进度 条 完成 时 ，VMware 软件 即 可 安装 成 功 ， 如 图 A-6 所 示 。 
安装 成 功 后 会 提示 “安装 完成 "， 单 击 “ 完 成 ”按钮 即 可 完成 VMware 软件 的 安装 ， 如 
图 A-7 所 示 。 
ww ai bbt. com DOOOOOD 


自 定义 去 装 
选择 安装 目标 及 任何 其 他 功能 * 


安装 位 置 : 
C:Program Files (x86)\WMware WMware Workstation 


人 | 增强 型 键盘 代 动 程序 (需要 重新 引导 以 使 用 此 功能 全 ) 
此 功能 要 求 主机 驱动 器 上 有 具有 10MB 空间 。 


图 A-4 “ 自 定义 安装 ”界面 


正在 安装 VMware Workstation pro 


安装 疝 导 正在 安装 VMware Workstation Pro， 请 稍 候 。 


Tor 正在 清理 旧版 虚拟 网 络 驱动 程序 。 
Mi a aisi 








^ 
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已 准备 好 安装 VMware Workstation Pro 


SFER MARR. Mi b-p 交 着 或 更 忆 任 何 安装 设置 。 单 击 " 职 消 "退出 向 
Se 


VMware Workstation Pro 安装 向 导 已 完成 


单 击 完成 按钮 退出 安装 向 导 。 


即 输入 许可 证 密 钥 ， 请 按 下 面 的 "许可 证 按 





图 A-7 完成 安装 
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Cfpprciuett 2: WRB 


CentOS 虚拟 机 的 安装 方法 


B1 下 载 光盘 镜像 


访问 CentOS 官方 网 站 : http://www.centos.org， 下 载 最 新 版 本 的 CentOS 系统 安装 光盘 
镜像 。 本 示例 中 下 载 地 址 如 下 : un /lisoredirect.centos.org/centos/7/isos/x86 64/CentOS-7- 
x86 64-DVD-1511.iso. 


B.2 创建 VMware 虚拟 机 


运行 安装 好 的 VMware 虚拟 机 ， 在 主 界面 单 击 “ 创 建新 虚拟 机 ”按钮 ， 如 图 B-1 所 示 。 
进入 “新 建 虚 拟 机 向 导 ” 界 面 。 单 击 “ 浏 览 ” 按 钮 选择 下 载 的 Centos 7 安装 镜像 ， 如 
图 B-2 所 示 o 

















peni 
MORBUM, H 需要 的 作 系统 。 您 将 如 何 安装 富 户 机 操作 系统 ? 





Pa 









FAT fEsCSVeolCentOS-7 x86, 64-DVD-1511.0 » [opem] 
o EARMS CentOS 64 位 。 
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- à "Cre Gn aed 
图 B-1 单 击 “ 创 建新 虚拟 机 ”按钮 图 B-2 选择 CentOS 7 安装 镜像 
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VMware 会 自动 检测 到 ISO 文件 对 应 的 操作 系统 类 型 ， 单 击 “ 下 一 步 ” 按 钮 ， 进 入 虚 
拟 机 设置 部 分 ， 为 虚拟 机 起 一 个 好 识别 的 名 称 并 设置 保存 位 置 ， 建 议 将 虚拟 机 保存 到 空间 
充裕 的 分 区 ， 随 着 使 用 次 数 的 增多 ， 虚 拟 机 占用 磁盘 空间 会 逐渐 增 大 。 这 里 将 虚拟 机 安装 
到 EE 盘 下 的 目录 ， 如 图 B-3 所 示 。 

单 击 “ 下 一 步 ” 按 钮 ， 设 置 虚拟 磁盘 大 小 ， 需 要 注意 的 是 ， 分 配 的 磁盘 空间 不 会 立即 
被 占用 ， 随 着 存储 的 数据 增加 占用 空间 会 逐渐 增 大 。 这 里 保持 默认 设置 即 可 ， 如 果 需 要 增 
加 磁盘 空间 ， 可 以 在 安装 系统 后 进行 添加 。 单 击 “ 下 一 步 ”按钮 ， 完 成 基本 安装 ， 如 图 B-4 
所 示 。 
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您 要 为 此 虚拟 机 使 用 什么 名 称 ? 碳 熏 大 小 为 多 少 ? 


Meu ILU o omo M 


CentOS 64 位 





| Exil (GO): EE 
| “针对 CentOS 64 位 的 建议 大 小 : 20 GB. 


| dum 

















图 B-3 设置 名 称 和 位 置 图 B-4 指定 磁盘 容量 


进入 安装 的 最 后 阶段 :“ 自 定义 硬件 界面 "， 通 过 这 个 界面 可 以 定义 虚拟 机 支持 的 硬件 ， 
这 里 保持 默认 设置 即 可 ， 单 击 “ 完 成 ”按钮 后 ， 开 始 进行 CentOS 操作 系统 的 安装 。 


B.3 安装 CentOS 7 操作 系统 


CentOS 7 安装 光盘 镜像 引导 后 ， 会 出 现 安装 引导 界面 ， 在 这 个 界面 下 可 以 进行 ISO 的 
光盘 完整 性 检测 等 操作 。 安 装 新 的 CentOS 系统 ， 在 这 里 选择 Install CentOS 7 选项 即 可 ， 
进入 开始 安装 界面 ， 如 图 B-5 所 示 。 

首先 进入 语言 选择 界面 ， 这 里 在 下 拉 列 表 框 中 选择 “简体 中 文 (中 国 )” 选 项 ， 并 单 击 
“继续 ”按钮 ， 如 图 B-6 所 示 。 

接 下 来 进入 安装 设置 部 分 ， 在 “软件 选择 ”选项 根据 虚拟 机 类 型 来 定制 软件 包 ， 如 图 
B-7 所 示 。 

这 里 建议 初次 使 用 Linux 的 读者 选择 带 有 图 形 界面 的 软件 包 ， 单 击 “ 软 件 选 择 ” 按 钮 ， 
在 列表 中 选择 “GNOME 桌面 ” 单 选 按 钮 后 ， 单 击 “ 完 成 ”按钮 ， 如 图 B-8 所 示 。 
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图 B-5 开始 安装 界面 图 B-6 语言 选择 界面 
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继续 设置 CentOS 系统 的 安装 位 置 ， 单 击 “ 安 装 位 置 ”按钮 ， 选 择 “自动 配置 分 区 ” 单 
选 按钮 ， 并 单 击 “完成 ”按钮 即 可 ， 由 于 Linux 操作 系统 的 分 区 方式 较 灵活 ， 不 推荐 初次 
使 用 的 用 户 自动 分 区 ， 避 免 删 除 重 要 的 系统 文件 。 操 作 方 法 如 图 B-9 所 示 。 

完成 设置 后 ,“ 开 始 安装 ”按钮 已 经 可 以 使 用 了 ， 单 击 “ 开 始 安装 ”按钮 进行 新 系统 的 
安装 ， 如 图 B-10 所 示 。 

安装 进度 条 会 提示 安装 的 进展 ， 在 安装 过 程 中 ， 用 户 可 以 设置 Linux 管理 员 的 密码 ， 
Linux 操作 系统 的 超级 管理 员 叫 做 root， 相 当 于 Windows 中 的 Administrator， 单 击 “ROOT 
密码 ”按钮 ， 设 置 一 个 不 容易 被 遗忘 的 密码 ， 在 对 CentOS 操作 系统 进行 管理 时 ， 会 用 到 这 
个 账号 和 密码 。 除 了 root 用户 ， 还 需要 为 Linux 添加 一 个 非 管 理 用 户 ， 用 于 日 常 使 用 ， 这 
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里 可 以 根据 自己 的 习惯 创建 一 个 自己 喜欢 的 用 户 名 和 密码 ， 如 图 B-11 所 示 。 
设置 完成 后 会 提示 “已 经 设置 ROOT 密码 ”， 等 待 进度 条 完成 系统 即 可 成 功 安 装 。 安 装 
完成 后 单 击 “重启 ”按钮 ， 就 可 以 进行 CentOS 系统 的 使 用 了 ， 如 图 B-12 所 示 。 
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图 B-9 设置 安装 位 置 
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Python 语言 简介 


Python 是 一 种 面向 对 象 的 解释 型 计算 机 程序 设计 语言 ， 由 Guido van Rossum 于 1989 
年 发 明 ， 第 一 个 公开 发 行 版 发 行 于 1991 年 。 

Python 是 纯粹 的 自由 软件 ， 它 的 源 代码 和 人 解释 器 CPython 遵循 GPL ( GNU General 
Public License) 协议 。 

Python 和 C 语言 不 一 样 ， 它 是 一 种 脚本 语言 。C 语言 在 写 完 源 代 码 后 是 需要 编译 成 二 
进 制 代码 才能 够 执行 的 ; Python 则 不 需要 ， 它 在 生产 环境 中 出 现 仍旧 是 源 代码 的 .py 文件 
形式 ， 在 执行 的 瞬间 才 由 Python 解释 器 将 源 代码 转换 为 字 节 码 ， 然 后 再 由 Python 解释 器 来 
执行 这 些 字 节 码 。 

这 种 形式 的 好 处 是 不 需要 考虑 平台 系统 的 问题 ， 可 以 和 Java 语言 一 样 “ 一 次 编写 到 处 
执行 ” 。 缺 点 也 是 显而易见 的 ， 就 是 每 次 进行 字 节 码 转 换 和 字 节 码 执 行 时 没有 直接 执行 二 进 
制 的 效率 高 。 好 在 对 于 执行 效率 苛刻 的 场合 毕竟 较 少 ， 另 外 ， 随 着 计算 机 硬件 能 力 的 提升 ， 
执行 效率 的 矛盾 也 变 得 不 明显 了 。 

和 其 他 计算 机 语言 一 样 ，Python 语言 也 有 自己 的 一 套 语 法 基础 。 有 顺序 、 分 支 、 循 环 、 
调用 的 程序 组 织 结构 ， 以 及 数字 、 字 符 串 、 列 表 、 元 组 、 集 合 等 多 种 数据 类 型 。 


1. 安装 Python 

安装 Python 的 方法 不 止 一 种 ， 这 里 只 介绍 使 用 yum 安装 Python 的 方式 。 

按照 默认 方式 安装 好 CentOS 7 操作 系统 后 ，Python 已 经 被 正确 安装 ， 可 以 执行 如 下 命 
邻 查看 : 





[rootelocalhost Desktop]# python -V 
Python 2.7.5 
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2. Hello World 
Python 的 Hello World 与 其 他 计算 机 语言 没什么 区 别 ， 而 且 更 加 简洁 ， 可 以 直接 在 交互 


式 编程 环境 中 编写 : 


分 ， 


print ("Hello, Python!"); 


3. 行 与 缩 进 
Python 脚本 文件 和 普通 的 文本 文件 没有 太 大 区 别 ， 一 般 以 .py 作为 后 缀 。 
#!/usr/bin/python 


# -*- coding: UTF-8 -*- 
# 文件 名 : test.py 


if True: 

print "True" 
else: 

print "False" 


其 中 # 为 注释 标记 ， 如 果 在 一 行 中 使 用 #， 那 么 # 后 的 内 容 是 不 会 被 解释 执行 的 。 

下 面 的 让 和 else 是 分 支 型 语句 ， 当 让 后 的 内 容 为 True (真实 ) 时 ， 则 执行 让 所 辖 的 部 
否则 执行 else 所 辖 的 部 分 。 

注意 Python 语言 中 是 不 用 begin/end 或 {} 来 表示 执行 段落 的 起 止 的 ， 这 里 的 这 和 else 


需要 左 侧 对 齐 ， 用 缩 进来 表示 段落 所 辖 范围 界限 。 


4. 变量 类 型 
Python 语言 中 标准 的 数据 类 型 有 几 种 : Numbers (F), String (FFR), List (列表 )、 


Tuple (元 组 )、Dictionary (字典 )。 


d1/usr/bin/python 
4 -*- coding: UTF-8 -*- 


counter = 100 4 赋值 整 型 变量 
miles = 1000.0 4 浮 点 型 
name = "John" # 字符 串 


print counter 


print miles 
print name 


这 段 代码 演示 了 整数 型 数字 、 浮 点 型 数字 以 及 字符 串 类 型 的 赋值 和 打印 操作 。 


#!/usr/bin/python 
# -*- coding: UTF-8 -*- 


list = [ "abëd!; 786 , 2.23, "Jonn, 70.2 ] 
tinylist - [123, 'john'] 
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print list 4 输出 完整 列表 

print list[0] 4 输出 列表 的 第 一 个 元 素 

print list[1:3] # 输出 第 二 个 至 第 三 个 元 素 

print list[2:] # 输出 从 第 三 个 开始 至 列表 未 尾 的 所 有 元 素 
print tinylist * 2 4 输出 列表 两 次 

print list + tinylist 4 打印 组 合 的 列表 


这 段 代码 演示 的 是 列表 类 型 的 操作 ， 列 表 很 像 Java 语言 中 的 数组 ， 只 是 列表 允许 不 同 
类 型 的 数据 放 在 同一 个 列表 中 ， 而 数组 不 可 以 一 一 它 只 能 要 求 所 有 的 元 素 类 型 一 致 。 





#!/usr/bin/python 
# -*- coding: UTF-8 -*- 


tuple - ( 'abcd', 786 , 2.23, 'john', 70.2 ) 
tinytuple - (123, 'john') 


print tuple # 输出 完整 元 组 

print tuple[0] 4 输出 元 组 的 第 一 个 元 素 

print tuple[1:3] # 输出 第 二 个 至 第 三 个 元 素 

print tuple[2:] # 输出 从 第 三 个 开始 至 列表 未 尾 的 所 有 元 素 
print tinytuple * 2 # 输出 元 组 两 次 

print tuple + tinytuple # 打印 组 合 的 元 组 


这 段 代码 演示 的 是 元 组 类 型 的 操作 。 操 作 方 法 和 列表 很 像 ， 但 是 Python 语法 不 允许 对 
元 组 中 的 元 素 进行 二 次 赋值 。 它 相当 于 只 读 类 型 的 列表 。 


#!/usr/bin/python 
# -*- coding: UTF-8 -*- 


dict = {} 

dict['one'] = "This is one" 

dict[2] = "This is two" 

tinydict = ('name': 'john','code':6734, 'dept': 'sales') 


print dict['one'] # 输出 键 为 'one' 的 值 
print dict[2] 4 输出 键 为 2 的 值 

print tinydict 4 输出 完整 的 字典 

print tinydict.keys() # 输出 所 有 键 
print tinydict.values() # 输出 所 有 值 


这 段 代码 演示 的 是 字典 类 型 的 操作 。 字 典 类 型 有 些 像 Java 中 的 HashMap， 是 通过 主键 
Key 来 访问 对 应 的 Value 值 ， 而 不 是 靠 下 标 来 访问 。 

5. 循环 语句 

#!/usr/bin/python 


count = 0 
while (count < 9): 
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print 'The count is:', count 
count = count + 1 


print "Good bye!" 


这 段 代 码 演示 的 是 while 循环 ，while 循环 后 面 的 条 件 表示 在 满足 条 件 的 时 候 执 行 while 
所 辖 的 程序 段 。 在 这 段 程序 中 表示 count<9 的 情况 下 ， 执 行 下 面 的 两 行 语句 ， 不 包括 


print "Good bye!" 
这 一 行 。 


#!/usr/bin/python 
# -*- coding: UTF-8 -*- 


for num in range(10,20): # ikf& 10 到 20 之 间 的 数字 
for i in range(2,num): # 根据 因子 迭代 
if num$i == 0: # 确定 第 一 个 因子 
jenum/i # 计算 第 二 个 因子 
print '$d 等 于 sd * $d' $ (num,i,j) 
break # 跳出 当前 循环 
else: # 循环 的 else 部 分 
print num, ' 是 一 个 质数 ' 


上 面 这 段 程序 略 显 繁琐 ， 但 是 内 容 仍然 很 简单 。 

这 是 循环 的 男 一 种 写法 一 一 for 循环 ，for 循环 也 是 一 种 循环 ,后面 写 出 的 是 一 个 循环 范 
围 。 这 里 是 一 个 二 重 循环 ， 也 就 是 两 个 循环 发 生 了 髓 套 一 一 在 一 个 循环 的 执行 中 有 男 一 个 
循环 。 外 层 循环 是 让 num 在 10 和 20 之 间 做 循环 ， 内 层 循环 是 i 在 2 和 num 之 间 做 循环 。 


6. 函数 


#!/usr/bin/python 
# -*- coding: UTF-8 -*- 





4 定义 函数 

def printme( str ): 
" 打印 任何 传 入 的 字符 串 " 
print str; 


return; 


# 调用 函数 

printme (" 我 要 调用 用 户 自 定义 函数 17) ; 

Printme (" 再 次 调用 同一 函数 ") ; 

函数 是 一 种 最 小 单位 的 代码 段 封装 。 关 键 字 是 def，def 后面 的 printme 是 函数 名 ，str 
是 参数 名 称 。 这 个 函数 的 内 容 就 是 直接 打印 传人 的 变量 值 。 

最 后 两 句 是 对 函数 的 调用 。 
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7. 模块 


#!/usr/bin/python 
# -*- coding: UTF-8 -*- 


# 导入 模块 


import support 


4 现在 可 以 调用 模块 里 包含 的 函数 了 

support.print func("Zara") 

模块 是 一 种 大 单位 的 代码 段 集合 ， 例 如 ， 一 个 support.py 的 文件 中 有 多 个 函数 定 
义 ， 其 中 一 个 叫做 print func 函数 。 在 不 对 support.py 这 个 模块 进行 引用 的 时 候 是 不 能 译 
用 print func 函数 的 。 上 面 这 段 代码 中 ，import support 是 导入 support.py 模块 ， 下面 的 
support.print func("Zara") 是 调用 support 中 的 print 函数 ， 并 传人 变量 "Zara" 作为 参数 。 


from fib import Fibonacci 


这 是 导入 模块 的 另 一 种 写法 ， 区 别 是 它 能 够 导入 一 个 模块 的 一 部 分 而 非 全 部 模块 代码 。 
示例 中 是 指 从 fib 这 个 模块 中 只 导入 Fibonacci 这 个 函数 。 


8. 小 结 

以 上 就 是 Python 语言 中 所 涉及 的 最 基本 的 语法 。 而 强大 的 Python 所 支持 的 其 他 内 容 读 
者 如 果 有 兴趣 可 以 再 找 一 些 专门 介绍 Python 的 资料 来 学 习 ， 本 书 对 Python 基本 语法 的 介绍 
到 此 为 止 。 

在 本 书 中 所 列举 的 示例 代码 中 ， 所 涉及 的 库 有 以 下 几 个 。 

(1) NumPy, NumPy 系统 是 Python 的 一 种 开源 的 数值 计算 扩展 库 。 它 提供 了 许多 高 级 
的 数值 编程 工具 ， 如 和 矩阵 数据 类 型 、 矢 量 处 理 ， 以 及 精密 的 运算 库 。 专 门 用 于 严格 的 数字 
处 理 。 多 为 大 型 金融 公司 使 用 。 核 心 的 科学 计算 组 织 ， 如 Lawrence Livermore. NASA 用 其 
处 理 一 些 本 来 使 用 C++、FORTRAN 或 MATLAB 等 所 做 的 任务 。 

(2) matplotlib。 一 个 专业 的 绘图 工具 库 ， 官 方 网 址 为 http://matplotlib.org/。 

它 调用 简单 ， 使 用 非常 方便 ， 在 配合 Python 进行 数据 挖掘 和 报表 制作 的 过 程 中 是 一 种 
LUE 

(3) SciPy. SciPy 是 一 款 方便 、 易 于 使 用 、 专 为 科学 和 工程 设计 的 Python 工具 包 。 它 
提供 的 内 容 很 丰富 ， 文 件 输 入 输出 、 特 殊 函 数 、 线 性 代数 运算 、 快 速 傅 里 叶 变 换 、 统 计 与 
随机 、 微 分 和 积分 、 图 像 处 理 等 诸多 封装 内 容 。 官 方 网 址 为 http://www.scipy.org/， 读 者 如 
果 有 兴趣 可 以 去 了 解 更 多 的 内 容 。 

( 4) Scikit-learn。Scikit-learn 是 最 著名 的 Python 机 器 学 习 库 之 一 ， 在 附录 D 中 会 做 比 
较 详细 的 介绍 。 
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Scikit-learn 库 简 介 


Python 的 开源 社区 非常 活跃 ， 也 有 很 多 和 Java 等 开源 语言 一 样 的 框架 或 库 体 系 ， 其 中 
Scikit-learn (简写 成 sklearn) 是 最 著名 的 Python 机 器 学 习 库 之 一 。 官 方 网 址 为 http://scikit- 
learn.org/stable/。 

sklearn 基于 BSD 开源 许可 证 ， 最 早 由 David Cournapeau 在 2007 年 发 起 ， 目 前 也 是 由 
社区 自愿 者 进行 维护 ， 经 年 累 月 ， 整 个 项 目的 内 容 已 经 相当 丰富 了 ， 目 前 最 新 的 稳定 版 是 
0.17 版 本 。 

用 户 手 册 内 容 也 很 友好 ， 覆 盖 面 很 全 ， 包 括 有 监督 的 学 习 (分 类 )、 无 监督 的 学 习 OR 
类 )、 模 型 选择 与 评价 、 数 据 集 转换 、 数 据 集 提取 应 用 (数据 示例 下 载 )、 大 规模 计算 策略 、 
计算 效率 七 大 部 分 。 | 

本 书 中 的 机 器 学 习 算 法 大 多 使 用 sklearn 库 完 成 ， 主 要 涉及 Supervised learning 和 
Unsupervised learning 两 个 部 分 ， 相 信 它 也 能 帮助 读者 在 生产 生活 中 很 大 程度 地 提高 生产 
效率 。 

在 安装 sklearn 之 前 请 确认 Python 已 经 安装 。 安 装 Python 的 方法 见 附录 C。 

如 果 发 现 Python 软件 未 被 正确 安装 ， 可 以 使 用 CentOS 系统 自 带 的 包 管理 工具 “yum” 
进行 安装 。 安 装 方法 如 下 : 

[rootelocalhost Desktop]# yum install -y python 

然后 安装 sklearn. sklearn 的 安装 很 简单 ， 只 要 能 够 连接 上 互联 网 ， 直 接 使 用 pip 安装 
即 可 : 


$ pip install -U scikit-learn 
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Cpl : 附录 E 


FANN for Python 安装 


前 往 FANN 官方 网 站 : http://leenissen.dk/fann/wp/download/。 单 击 Download 按钮 ， 进 
入 下 载 页 面 ， 如 图 E-1 所 示 。 





4 Home ^ Download 


Download 


Download FANN Library Version 2.2.0 


The tatest version of FANN is atways available in the qifnub (eposstory and for most uses, hat i the version that should be used. 
Thes page inctudes the downioad for the FANN C/C++ library for Graphical Interfaces go to he Graphica! interface page and for bindings 
o other languages go 1o Ihe Language Bindings page 


CIC++ Library Source Code tor ail plattorms including examples and windows DLLILib 
files. Support tor Visual Studio 2010 as well as cross platform compilation with CMAKE- 





FANN Installation Guide 
Casca matat guide tor fne Shray 


For olei versions of FANN go to Me sourcetbrge Download Page 


图 E-1 下 载 页 面 
fit HH : 


$ unzip FANN-2.2.0-Source.zip 
编译 : 


$ cmake . 
$ make install 
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附录 下 P7 eC 


群众 眼中 的 大 数据 


在 本 书 成 书 的 过 程 中 ， 笔 者 试 着 采访 过 一 些 “ 群 众 "， 让 他 们 说 说 他 们 眼中 的 大 数据 一 
词 是 什么 概念 ， 得 到 了 很 多 有 趣 的 说 法 。 
da shu ju hao chi ma? 


— RAA, £hJLSERCT- 


大 数据 并 不 一 定 是 数据 大 ， 而 是 通过 大 数据 分 析 挖 气 、 分 析 方 法 使 得 数据 的 价值 大 大 
放大 。 
可 能 很 多 人 还 会 说 大 数据 是 炒作 ， 我 认为 “存在 即 合理 ”， 现 在 市 场 上 做 大 数据 的 公司 
良 著 不 齐 ， 也 说 明 目 前 正 处 于 大 数据 快速 发 展 阶段 ， 我 们 也 逐步 感受 到 大 数据 带 来 的 便利 ， 
比如 智慧 城市 项 目 、 生 物 基 因 检 测 等 。 如 果 你 处 于 公司 的 决策 层 ， 有 数据 做 支撑 你 会 更 有 
底气 。 
一 一 彭 瑶 ， 数 据 分 析 师 
小 县 城 林 业 工作 数 十 年 ， 退 体 在即， 回顾 一 得， 变化 最 大 的 应 该 就 是 案头 厚 厚 的 文档 
越 来 越 少 ， 服 务 群 众 的 效率 越 来 越 高 。 林 、 人 、 企 在 数据 的 结合 相 比 以 前 简单 的 分 类 ， 等 
着 群众 来 办 事 的 方式 变 成 了 能 主动 跑 下 去 。 
一 一 谭 波 道 ， 公 务 员 
大 数据 嘛 ， 数 据 量 大 、 数 据 种 类 多 样 、 有 价值 。 比 如 之 前 我 做 过 的 保险 的 一 些 项 目 ， 
他 们 得 到 购买 保险 的 客户 ， 根 据 数据 分 析 ， 更 好 地 推广 他 们 的 保险 ， 把 不 同 需求 的 保险 推 
给 不 同 的 人 。 
一 一 陆 飞 ， 男 程序 员 
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大 数据 : 抽象 出 的 真实 世界 。 
一 一 左 妍 ， 女 程序 员 


学 好 大 数据 思维 ， 掌握 未 来 发 展 之 道 ! 





向 上 ，IT 技术 论坛 创始 人 


DX c 开始 就 是 认为 和 数字 有 关系 ， 基 本 认为 就 是 和 数字 打交道 ， 听 到 最 多 的 就 
是 Python (也 不 知道 是 哈 )， 虽 然 直 至 现在 也 不 能 深入 了 解 大 数据 ， 但 是 自己 觉得 大 数据 要 
具有 很 强大 的 洞察 力 和 逻辑 分 析 能 力 ， 对 此 自己 也 充满 好 奇 ， 计划 在 闲暇 时 间 通 过 阅读 书 
籍 或 和 大 师 “ 和 白话 ”了 解 大 数据 (小 白 选 手 不 要 理 )。 
一 一 王 月 ， 德 语 专业 大 学 生 
大 数据 就 是 在 一 堆 繁杂 的 事物 里 面 找 规律 找 共 性 ， 它 应 该 能 够 影响 人 类 的 生活 ……: 能 
让 我 们 变 成 想象 中 的 外 星人 吗 ? 
一 一 李娜 ， 高 级 人 力 资源 经 理 
大 数据 是 真正 的 新 能 源 。 它 将 成 为 每 一 个 现代 企业 的 重要 资产 ， 并 在 人 类 商业 社会 演 
进 的 道路 中 扮演 关键 作用 。 
一 一 李 力 ; CEO 


大 家 的 回答 是 如 此 丰富 ， 也 从 一 个 侧面 说 明 ， 大 数据 就 是 一 种 见仁见智 的 艺术 性 的 产 
业 ， 它 会 在 各 个 领域 对 各 个 行业 的 人 们 持续 不 断 地 产生 深远 的 影响 。 
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TRIES , TUAREUR | 
~ ; HG ,这么 大 活 儿 怎么 也 得 给 
本 ,除了 上 次 口头 说 的 3 人 要 | 2W 吧 人 | 
求 以 外 ， 还 有 个 108 页 A4 纸 的 ， 
格式 要 求 ， 发 你 邮箱 了 ， 记 得 
Ju 


Qum, 为 了 情怀 2000 
200 


上 午 12:14 @ 37% 


详情 









war 受 死 吧 ， 卷 织 神经 网 络 
adis m 


é "B, XEREHDHAERS S SCPLNOR 





EFE: 










上 年 8214 
EF8:18 


a 上 上午 11:46 
ME URENA? 是 不 是 就 是 像 流 头 
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print "前 几 章 内 容 会 不 会 有 点 
T. mg?" 


o DODDDDDDO 








ww ai bbt. com (1 EL DLE BL D. 


参考 文献 


Allen B. Downey. 贝 叶 斯 思维 : 统计 建 模 的 Python 学 习 法 [M]. FAR, PE. 北京 : 人 民 邮 电 
出 版 社 ，2015. 

ABE. PLAK: 算法 原理 与 编程 实践 [M]. 北京 : 电子 工业 出 版 社 ，2015. 

Jiawen Han, Micheline Kamber, Jian Pei. 数据 挖 气 : 概念 与 技术 [M]. 北京 : 机 械 工 业 出 版 社 ， 
2007. 

王家 林 . 大 数据 Spark 企业 级 实战 [M]. 北京 : 电子 工业 出 版 社 ，2015. 

Wd. Xu M]. 北京 : 中 信和 出 版 社 ，2014. 

Simon Haykin. 神经 网 络 与 机 器 学 习 [M]. "arbo. (GUAE. XM. 等 译 . 北京 : 机 械 工业 出 版 社 ， 


2009. 


ww ai bbt. com (1 EL DLE ELO. 


目前 很 多 大 中 型 企业 都 有 数据 分 析 岗 位 ， 尤 其 是 和 自己 业务 结合 紧密 的 分 析 岗 位 。 企 业 求 贤 若 渴 ， 
而 求职 者 对 数据 分 析 岗 位 望而却步 。 这 就 是 当前 大 数据 分 析 市 场 的 乾 众 。 


原因 有 三 : 

e 数学 基础 薄弱 很 多 应 用 中 的 统计 学 、 概 率 学 ， 成 为 学 习 中 的 巨大 阻力 。 

€ 学 习 成 本 高 : 数学 和 相关 的 算法 过 于 抽象 ， 布 道 者 往往 忽略 了 很 多 解释 性 的 内 容 ， 使 得 读者 学 
习 起 来 费时 费力 。 

D ”变现 不 确定 : 这 也 是 数据 分 析 人 员 的 尴 众 。 MAMARA C SUE RM 


本 书 通俗 易 展 ， 有 高 中 数学 基础 即 可 看 懂 ， 同时 结合 大 量 案例 与 漫画 ， 将 高 度 抽象 的 数学 、 算 法 
与 应 用 ， 与 现实 生活 中 的 案例 和 事件 一 一 做 了 关联 ， 将 源 自生 活 的 抽象 还 原 出 来 ， 帮 助 读者 理解 后 ， 
又 带领 大 家 将 这 些 抽象 的 规律 与 算法 应 用 于 实践 ， 贴 合 读者 需求 。 同 时 ， 本 书 不 是 割裂 讲解 大 数据 与 
机 器 学 习 的 算法 和 应 用 ， 还 讲解 了 其 生态 环境 与 关联 内 容 ， 让 读者 更 全 面 地 知晓 济源 与 未 来 ， 是 系统 
学 习 大 数据 与 机 器 学 习 的 不 二 之 选 : 


6 大 数据 产业 解读 一 一 剖析 产业 情况 ， 人 才 供 需 、 职 业 选 择 与 相应 “武器 ” 库 ; 

6 步 入 大 数据 之 门 一 一 解读 数据 、 信 息 、 算 法 ， 以 及 与 大 数据 应 用 的 关系 ; 

6 大 数据 基石 一 一 结合 大 量 示 例 和 漫画 ， 趣 味 讲解 大 数据 算法 应 掌握 的 数学 知识 ， 无 障碍 学 习 : 
o 大 数据 算法 奥义 一 一 信息 论 、 向 量 空间 、 回 归 、 聚 类 、 分 类 等 最 为 核心 的 算法 的 释义 与 应 用 ， 


aeg E. 
€ 大 数据 热门 应 用 一 一 关联 分 析 、 用 户 画像 、 推 荐 算法 、 文 本 挖掘 、 人 工 神经 网 络 等 最 实用 、 最 
需要 了 解 的 应 用 的 原理 与 实现 ; 


e 大 数据 主流 框架 主流 的 大 数据 框架 (Hadoop, Spark 和 此 ssahdra) ; 
e 系统 架构 与 调 优 从 速度 与 稳定 性 方面 给 出 调 优 的 一 般 性 “内 功 心 法 ”; 
€ 大 数据 价值 与 变现 一 一 从 运营 指标 、AB 测 试 、 大 数据 价值 .5 交 现 场景 多 维度 解读 。 
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